作者丨happy

编辑丨极市平台

arxiv:https://arxiv.org/ABS/2108.11250

代码： https://Github.com/Hust VL/yolop

code @ opencv:https://github.com/HPC 203/yolop-opencv-dnn

本文是华中科技大学集中的柚子团队全景驾驶感知工作，提出了一种可以在嵌入式平台上实时处理三项感知任务(目标检测、可驾驶区域划分、车道检测)的方案YOLOP。提出的YOLOP不仅拥有超高速的推理速度，而且在极具挑战性的ljdch100K三大任务中获得了非常优异的性能。

Abstract

全景驾驶感知系统是自动驾驶非常重要的部分，实时高精度感知系统有助于车辆合理的驾驶决策。

我们提出了一种全景驾驶感知网络YOLOP，可以同时进行交通目标的检测、驾驶区域的分割以及车道的检测。 YOLOP包括用于特征提取的编码和用于处理特定任务的三个解码器。提出的方法在极具挑战性的ljdch100K数据集上非常出色，从精度和速度的观点来看，提出的方法通过3个任务获得了SOTA性能。另外，我们通过消融实验验证了多任务学习模型的有效性。

据我们所知，这项工作是第一个可以用嵌入式设备(Jetson TX2 )实时处理三个视觉任务的方案，同时具有非常好的精度。

Method

。

上图显示了本论文中提出的YOLOP网络体系结构的简图。这是一个分阶段的网络，包含共享编码器和三个特定任务的解码器。由于不同的解码器之间没有复杂冗余的共享模块，因此可以大幅减少计算量，同时便于网络的端到端训练。

Encoder

该网络的编码器由主干网和Neck网构成。

主干网：主干网用于提取输入图像的特征，考虑到YOLOv4在目标检测方面的优越性能，选择了CSPDarkNet作为主干网。

Neck :Neck用于融合主干网提取的特征，主要利用SPP和FPN构建了Neck模块。 SPP用于生成融合不同尺度的特征； FPN在不同的语义层面融合特征，使生成特征包含多尺度、多语义层面的信息。

Decoders

YOLOP包括三个用于三个任务的解码器。

Detect Head类似于YOLOv4，我们采用了基于Anchor的多尺度检测机制。首先，我们用PAN进行更优良的特征融合，并用融合后的特征进行检查。在多尺度特征的各个grid中给出了3个先验anchor (包括不同的宽高比)，检测头预测位置偏移、kxdsb、类概率以及预测可靠性。

Driable AREASEG Menthe ADLANELInese GMenthead驾驶区域分割头和车道分割头采用了相同的结构。我们把FPN的输出特征(分辨率)发送到分割分支。我们设计的分割分支非常简单，通过3次上采样处理输出特征大小，是表示各像素是驾驶区域/车道还是背景的概率。由于Neck已经包含了SPP模块，所以不会像PSPNet那样添加SPP模块。此外，为了削减计算量，采用了最近的采样层。因此，分割解码器不仅具有高精度的输出，推理速度也非常快。