深度学习需持续收集海量数据（深度学习需持续收集海量数据）- 恩蓝号

深度学习需持续收集海量数据?·“自动驾驶将车厂和用户之间的价值交换，从买车的一瞬间，延长到使用车的整个生命周期”背后逻辑在于，传统汽车量产后软件基本就不再发生变化，但对自动驾驶软件而言却是要不停更新的，今天小编就来聊一聊关于深度学习需持续收集海量数据?接下来我们就一起去研究一下吧!

深度学习需持续收集海量数据

·“自动驾驶将车厂和用户之间的价值交换，从买车的一瞬间，延长到使用车的整个生命周期。”背后逻辑在于，传统汽车量产后软件基本就不再发生变化，但对自动驾驶软件而言却是要不停更新的。

·“自动驾驶开发流程中的具体挑战主要在五个方面：海量数据的传输；海量数据的低成本存储；预处理和分析；复杂的模型开发和训练；仿真验证。

“自动驾驶、车联网、软件定义汽车，这三个方面代表着汽车产品数字化三大最重要的场景。”近日，亚马逊云科技大中华区战略业务发展部总经理顾凡在接受澎湃新闻（www.thepaper.cn)在内的记者采访时说道，这些趋势背后本质上在发生的变化是：将车厂和用户之间的价值交换，从买车的一瞬间，延长到使用车的整个生命周期。

顾凡认为，无论是利用自动驾驶、车联网抑或软件定义汽车，其本质是希望通过直接的互动，拿到更多数据，以此来指导如何提供使用者真正会买单的服务，“一个比较好的例子是特斯拉按月订阅的自动驾驶服务。”

这些变化都根植于一个逻辑，传统汽车量产后软件基本就不再发生变化，但对自动驾驶软件而言却是要不停更新的。因为自动驾驶基于深度学习，需要持续不断收集长尾里不常见的案例数据，不停迭代算法。

这样的开发流程是数据驱动的端到端的流程：首先车端的数据会被采集，集中存储或者放在云上的自动驾驶数据湖，数据湖里的数据进一步做预处理和分析，然后对处理和清洗过的数据进行标注，训练自动驾驶的机器学习模型。模型一旦开发出来，将通过仿真和验证进行测试，最终模型通过验证就会部署到车辆上。

在上述开发环节中使用到的工具就是工具链，顾凡认为，工具链的效率会决定自动驾驶的开发效率。“目前无论是自研还是整合现有工具链，都会面临一个挑战——工具链之间的割裂和数据孤岛，而当在云上围绕自动驾驶数据湖去整合工具链的时候，就可以非常有效地解决数据孤岛的问题。”

顾凡提出，自动驾驶开发流程中的具体挑战主要在五个方面。第一，海量数据的传输。自动驾驶的测试车运行的过程中各类的传感器、摄像头、激光雷达、毫米波雷达会产生大量数据，每天每车数据量会达到TB级别。其中，顾凡认为，目前行业中更大的挑战在于，怎么做定制化的数据采集，如针对长尾案例做特定场景的数据采集。

第二，海量数据的低成本存储。对这个问题，顾凡分享了智能分层的思路，这个方法依赖于机器学习，可根据自动驾驶工作负载里动态变化的数据访问模式实现自动分层，也就是说在8个存储层级里自动选择最合适的层级。

第三，预处理和分析。自动驾驶汽车的传感器数据首先要去噪，即数据清洗、统一格式。顾凡认为，在云上整合自动驾驶工具链的核心就是自动驾驶数据湖，数据可以在各个工具链上下游流动，这样就可以避免工具链割裂带来的数据孤岛的问题。

第四，复杂的模型开发和训练。当数据处理完成以后，下一步就是数据标注。在以深度学习为主的感知模型中，无论是2D、3D的标注还是联合标注，抑或车道线的标注，都需要向模型“喂养”海量有“真值（Ground Truth）”标注的数据。在标注中，最大的痛点在于质量价格比。

目前业界比较流行的方法是用专业的人力配合自动化辅助标注，去提升质量价格比。而在模型开发阶段，无论是从特征工程、模型训练，再到超参调优（为机器学习算法选择最优超参组合）和模型调试，都需要非常复杂的机器学习端到端的集成开发环境。同时，需要花费大量人力针对多个训练任务和GPU计算资源进行调度、管理。

第五大挑战是仿真验证。仿真系统主要由场景库、仿真平台、评价体系三部分组成，仿真系统的效率会直接影响整个自动驾驶开发链的效率。顾凡比喻道，数据驱动的自动驾驶开发流程可以想象成题海战术，场景库相当于考官出的无数难题，仿真平台上“做题”，仿真评价像打分阅卷，可以真正看到自动驾驶的软件在题海战术中到底表现如何。

在仿真领域又有两大挑战：规模及成本。“规模就好比，面对一个场景库的题海战术，一天能做多少题。成本是花了多少钱，请了多少人，一起来做这些难题。”顾凡说。

目前主要用云上的高并发仿真来应对这个挑战。云上的仿真模式有两种，一种是基于路测的真实数据回放，测试自动驾驶系统不同部件整合起来的综合性能。还有一种是常规熟识的仿真，即对环境、路面地形、传感器、车辆控制等进行仿真，这种仿真模式主要用于控制和规划算法的开发。

超大规模的云上并行仿真需要三个核心要素：计算资源、持久化存储资源和并行文件系统。顾凡解释道，“只有这三个全部都能够支持大规模的弹性扩缩，才不会有短板，才不会在仿真的工作负载中产生瓶颈。”