首页 > 百科知识 正文

深度学习需持续收集海量数据(深度学习需持续收集海量数据)

时间:2023-11-21 01:46:59 阅读:601 作者:麻辣鸡婆

深度学习需持续收集海量数据?·“自动驾驶将车厂和用户之间的价值交换,从买车的一瞬间,延长到使用车的整个生命周期”背后逻辑在于,传统汽车量产后软件基本就不再发生变化,但对自动驾驶软件而言却是要不停更新的,今天小编就来聊一聊关于深度学习需持续收集海量数据?接下来我们就一起去研究一下吧!

深度学习需持续收集海量数据(深度学习需持续收集海量数据)-第1张

深度学习需持续收集海量数据

·“自动驾驶将车厂和用户之间的价值交换,从买车的一瞬间,延长到使用车的整个生命周期。”背后逻辑在于,传统汽车量产后软件基本就不再发生变化,但对自动驾驶软件而言却是要不停更新的。

·“自动驾驶开发流程中的具体挑战主要在五个方面:海量数据的传输;海量数据的低成本存储;预处理和分析;复杂的模型开发和训练;仿真验证。

“自动驾驶、车联网、软件定义汽车,这三个方面代表着汽车产品数字化三大最重要的场景。”近日,亚马逊云科技大中华区战略业务发展部总经理顾凡在接受澎湃新闻(www.thepaper.cn)在内的记者采访时说道,这些趋势背后本质上在发生的变化是:将车厂和用户之间的价值交换,从买车的一瞬间,延长到使用车的整个生命周期。

顾凡认为,无论是利用自动驾驶、车联网抑或软件定义汽车,其本质是希望通过直接的互动,拿到更多数据,以此来指导如何提供使用者真正会买单的服务,“一个比较好的例子是特斯拉按月订阅的自动驾驶服务。”

这些变化都根植于一个逻辑,传统汽车量产后软件基本就不再发生变化,但对自动驾驶软件而言却是要不停更新的。因为自动驾驶基于深度学习,需要持续不断收集长尾里不常见的案例数据,不停迭代算法。

这样的开发流程是数据驱动的端到端的流程:首先车端的数据会被采集,集中存储或者放在云上的自动驾驶数据湖,数据湖里的数据进一步做预处理和分析,然后对处理和清洗过的数据进行标注,训练自动驾驶的机器学习模型。模型一旦开发出来,将通过仿真和验证进行测试,最终模型通过验证就会部署到车辆上。

在上述开发环节中使用到的工具就是工具链,顾凡认为,工具链的效率会决定自动驾驶的开发效率。“目前无论是自研还是整合现有工具链,都会面临一个挑战——工具链之间的割裂和数据孤岛,而当在云上围绕自动驾驶数据湖去整合工具链的时候,就可以非常有效地解决数据孤岛的问题。”

顾凡提出,自动驾驶开发流程中的具体挑战主要在五个方面。第一,海量数据的传输。自动驾驶的测试车运行的过程中各类的传感器、摄像头、激光雷达、毫米波雷达会产生大量数据,每天每车数据量会达到TB级别。其中,顾凡认为,目前行业中更大的挑战在于,怎么做定制化的数据采集,如针对长尾案例做特定场景的数据采集。

第二,海量数据的低成本存储。对这个问题,顾凡分享了智能分层的思路,这个方法依赖于机器学习,可根据自动驾驶工作负载里动态变化的数据访问模式实现自动分层,也就是说在8个存储层级里自动选择最合适的层级。

第三,预处理和分析。自动驾驶汽车的传感器数据首先要去噪,即数据清洗、统一格式。顾凡认为,在云上整合自动驾驶工具链的核心就是自动驾驶数据湖,数据可以在各个工具链上下游流动,这样就可以避免工具链割裂带来的数据孤岛的问题。

第四,复杂的模型开发和训练。当数据处理完成以后,下一步就是数据标注。在以深度学习为主的感知模型中,无论是2D、3D的标注还是联合标注,抑或车道线的标注,都需要向模型“喂养”海量有“真值(Ground Truth)”标注的数据。在标注中,最大的痛点在于质量价格比。

目前业界比较流行的方法是用专业的人力配合自动化辅助标注,去提升质量价格比。而在模型开发阶段,无论是从特征工程、模型训练,再到超参调优(为机器学习算法选择最优超参组合)和模型调试,都需要非常复杂的机器学习端到端的集成开发环境。同时,需要花费大量人力针对多个训练任务和GPU计算资源进行调度、管理。

第五大挑战是仿真验证。仿真系统主要由场景库、仿真平台、评价体系三部分组成,仿真系统的效率会直接影响整个自动驾驶开发链的效率。顾凡比喻道,数据驱动的自动驾驶开发流程可以想象成题海战术,场景库相当于考官出的无数难题,仿真平台上“做题”,仿真评价像打分阅卷,可以真正看到自动驾驶的软件在题海战术中到底表现如何。

在仿真领域又有两大挑战:规模及成本。“规模就好比,面对一个场景库的题海战术,一天能做多少题。成本是花了多少钱,请了多少人,一起来做这些难题。”顾凡说。

目前主要用云上的高并发仿真来应对这个挑战。云上的仿真模式有两种,一种是基于路测的真实数据回放,测试自动驾驶系统不同部件整合起来的综合性能。还有一种是常规熟识的仿真,即对环境、路面地形、传感器、车辆控制等进行仿真,这种仿真模式主要用于控制和规划算法的开发。

超大规模的云上并行仿真需要三个核心要素:计算资源、持久化存储资源和并行文件系统。顾凡解释道,“只有这三个全部都能够支持大规模的弹性扩缩,才不会有短板,才不会在仿真的工作负载中产生瓶颈。”

版权声明:该问答观点仅代表作者本人。如有侵犯您版权权利请告知 cpumjj@hotmail.com,我们将尽快删除相关内容。