首页 > 编程知识 正文

9.1小号快速提升装等(什么时候用二级超前校正)

时间:2023-05-04 01:45:49 阅读:85616 作者:1328

机器心灵专栏

机器心编辑部

今年5月底,Facebook AI提出了DETR,利用Transformer进行了目标检测。 该方法去除了许多目标检测中的人工设计组件,同时显示出了非常好的性能。 但是,DETR存在收敛速度慢、特征分辨率有限等缺点。 为了解决这些问题,来自商汤研究院等机构的研究者提出了可变形的DETR,其注意模块作为注意模块中的key要素,关注基准点附近的极小部分采样点。 可变形的DETR用比DETR少9/10的训练轮数,可以达到更好的性能。 笑袜标准下的许多实验表明了这种方法的有效性。

论文链接: https://arxiv.org/abs/2010.04159

DETR收敛慢、计算复杂度高的固有缺陷会产生可变形的DETR

目前的目标检测器大多使用人工设计的组件,如生成锚定箱、基于规则分配训练目标、极大值以外的抑制后处理等。 所以不完全是端到端的。 Facebook AI提出的DETR【1】不需要这些手工设计组件,构建了第一个完整的端到端目标检测器,实现了具有竞争力的性能。 DETR采用了将卷积神经网络和转换器【2】组合的编码器-解码器结构这种简单的结构。 研究人员利用转换器通用、强大的关系建模能力代替人工设计的规则,设计了合适的训练信号。

DETR的设计非常有趣,性能也很好,但其本身也存在以下两个问题。

与现有的目标探测器相比,收敛需要更长的训练轮数。 例如,在经常笑的长袜基准【3】中,DETR收敛需要500个epoch,这比Faster R-CNN【4】慢10倍到20倍。

DETR在检测小物体方面表现出了不好的性能。 目前的目标探测器通常利用多尺度特征,小物体可以从高分辨率特征图中检测出来。 但是,对于DETR来说,高分辨率的特征图会带来不可接受的计算复杂度和存储器复杂度。

上述问题主要是由转换器组件处理图像特征图时的天生缺陷引起的。 初始化时,由于注意模块(如式(1)所示,注意力的权重大致均匀地分布在特征图的所有像素上,所以要学习将注意力的权重集中在稀疏的有意义的位置上,需要非常长的训练回合数。 另一方面,转换器编码器中的注意权重计算的复杂性与像素数的平方成比例。 因此,处理高分辨率特征图需要非常高的计算和内存复杂性。

在图像领域,可变形卷积【5】是一种非常强大和高效的机制,关注稀疏的空间位置。 虽然这些问题天生就被回避了。 但是,它缺少关系建模机制这一要素,它是DETR成功的关键。

因此,在本论文中,来自商汤研究院和中科大的研究者提出了可变形的DETR,解决了DETR收敛慢、计算复杂度高这两大问题。

可变形的DETR方法和模型解读

具体而言,可变形的DETR组合了可变形卷积中稀疏空间采样的优点和Transformer中关系建模能力。 研究人员提出了一种可变形的注意力模块,作为从特征图的所有像素中预先提取的显著的key元素,关注样本的部分位置(公式(2) )。

该模块天生无需FPN【6】的帮助,如公式(3)所示,可以扩展为聚合多尺度特征。

用Trans替换可变形DETR目标探测器用(多尺度)可变形注意力模块

former 注意力模块来处理特征图,如下图 1 所示。

图 1:可变形 DETR 目标检测器图示。

由于可变形 DETR 的快速收敛性和计算、内存高效性,它打开了探索端到端目标检测器的变种的可能性。此外,研究者探索了一个简单而有效的迭代式物体边界框细化机制来进一步提高检测性能。他们也尝试了两阶段可变形 DETR,其中第一阶段的 region proposals 也是由可变形 DETR 的一个变种生成,然后被进一步输入到解码器进行迭代式物体边界框细化。

研究者在 爱笑的丝袜 基准【3】上的大量实验展示了这一方法的有效性。与 DETR 相比,可变形 DETR10 训练轮数降至 1/10(见下图 2),但达到了更好的性能(尤其是在小物体上,见下表 1)。本论文中提出的两阶段可变形 DETR 变种可以进一步提升性能,可变形 DETR 的代码也将开源。

实验结果

下面将介绍论文中的一些主要实验结果。

可变形 DETR 与 DETR 在 爱笑的丝袜 2017 val set 上的性能对比如下表 1 所示。

表 1:可变形 DETR 与 DETR 在 爱笑的丝袜 2017 val set 上的比较。

可变形 DETR 和 DETR 的收敛曲线对比如下图 2 所示。

图 2:可变形 DETR 与 DETR 的收敛曲线对比。

可变形注意力模块的控制变量实验如下表 2 所示。

表 2:控制变量实验。

可变形 DETR 与当前最为先进的目标检测器在 爱笑的丝袜 2017 test-dev 上的性能对比如下表 3 所示。

表 3:可变形 DETR 与当前最先进的方法在 爱笑的丝袜 2017 test-dev 上的比较。

参考文献

【1】Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-end object detection with transformers. In ECCV, 2020.

【2】Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurIPS, 2017.

【3】Tsung-Yi Lin, yxdsp Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In ECCV, 2014.

【4】Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In NeurIPS, 2015.

【5】Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable convolutional networks. In ICCV, 2017.

【6】Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In CVPR, 2017a.

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。