首页 > 编程知识 正文

COCO2018 Keypoint冠军算法解读

时间:2023-05-04 13:54:30 阅读:94587 作者:1731

雷锋网AI科技评论:本文作者skicy Yu,原登知乎专栏,雷锋网已获授权。

本专栏主要希望我们的Face Detection Team用于对外交流,分享我们内部的工作,同时向其他同学学习经验和教训。 另外,希望有兴趣的同学参加我们(联系,yugang@megvii.com),做有意义的工作。 介绍我们小组内基本情况的slides。 第一期是我们在2018年做了COCO skeleton的工作。 首先,来看看我们模型的视频结果。 给出了coco 2018密钥点算法的结果。

后台

人体关键点检测(Human Keypoint Detection )又称人体姿态识别,目的是准确定位图像中人体关节点的位置,是人体动作识别、人体行为分析、人机交互的先期任务。 目前,作为计算机视觉不可缺少的热门研究领域之一,人体姿态识别有着众多的落地场景和广阔的应用前景,当前以及值得期待的场景应用有人体步态识别、体感游戏、AI美体、虚拟现实、增强现实、康复、体育教育

人体关键点检测任务在现实生活中有很大的潜在用途,目前公开的比赛中最权威的是MS COCO Keypoint track的比赛,也是这一领域最具挑战性的比赛。 参赛队伍既有Facebook、谷歌、微软这样的国际巨头,也有CMU等顶级研究机构,是该领域最先进方法的试金石。 科技Detection集团在2017年、2017年两次获得该赛事冠军,2017年看到COCO Keypoint赛事冠军后,CPN在业界产生了巨大的影响,并被广泛使用。 下面介绍一下在2018年的COCO Keypoint大赛中获得优胜的工作。

人体姿态识别的主流方法目前分为单阶段和多阶段两种。 后者遵循从粗糙到精细的逻辑符合任务的本质,但目前似乎没有比单阶段方法更好的表现了。 目前,多阶段方法强意义上的性能被认为主要是由许多不合理的设计引起的。 我们的工作从1 )网络设计,2 )特征流,3 )损失函数中提出了一系列改进措施,工作成果在MS COCO Keypoint数据集上超越了目前的方法得到了目前的最佳结果,论文已经公开在Arxiv上。 链接请参见(https://arxiv.org/abs/1901.00148 )

教育

图1

深卷积网络出现后,人体的姿态识别得到了迅速的发展。 现阶段最好的方法[ 1,2 ]网络结构比较简单,大多采用单阶段网络设计。 例如,2017 COCO Keypoint挑战赛冠军方法[1]采用基于Resnet-inception的网络结构,最新的Simple Baseline[2]采用resnet网络结构。 另一种网络结构采用多级网络设计,将一个轻量级网络作为单元网络,并将其简单地多层堆叠。

从直觉上看,多阶段的天然阶段优化特性适合这个任务,但是目前存在的多阶段网络在COCO中没有很好地发挥作用。 我们试图研究这个具有挑战性的问题,目前多阶段网络的不良表现主要是由于设计不足,通过一系列的1 )网络结构,2 )特征流,3 )损失函数方面的创新优化,最大化挖掘多阶段网络的潜力。

因此,我们提出了新的多阶段姿态估计网络MSPN,具体改进有三个方面。

目前,多级网络中的单元网络远离最优,使用Resnet等经过验证的网络要比Hourglass等主要多级方法采用的轻量级网络好得多。 其理由主要是,下采样编码器需要搭载更多的内容,轻量级网络无法应对。

由于重复进行下采样,上采样会失去信息,不利于学习。 我们提出融合多层次的特点加强信息流,缓解这个问题。

观察到关节点的定位呈阶段性精细优化,因此提出了从粗到精的学习策略,采用多尺度监督提高训练。 由图1可知,提高单阶段网络容量时,精度接近饱和,增长成为瓶颈; 在当前主流的多级网络中,如果将两个以上的单元网络层叠起来,则精度的提高非常有限。 在我们提出的MSPN中,随着单元网的堆栈数增加,精度继续提高。

在MS COCO基准测试中,MSPN在测试视频数据集上获得了76.1 AP; 在MS COCO 2018上,测试DEV达到78.1 AP,测试挑战赛78.1 AP,比去年的冠军上涨了4.3 AP。 -------多级网络-----

图2

多阶段姿势推断网络MSPN如图2所示。 它采用了自上而下的框架,即首先使用人体检测算法提取人体框架,并据此抠出来,进行一个人体姿势的估计。 如上所述,MSPN有三个新的突破。 第一,作为多阶段网络的单元网络,使用图像分类表现良好的网络,例如ResNet。 第二,提出阶段性传递的信息收集方式,减少信息损失; 第三,引进理由

粗到精的监督,并进行多尺度监督。

------有效的单阶段子单元网络设计-----

表 1

目前主流的多阶段网络全部基于 Hourglass 变体。从表 1 可知,Hourglass 在重复下采样和上采样的过程中,卷积层的通道数是相同的。这是因为高层语义信息更强,需要更多通道表征。

下采样时,Hourglass 变体会导致特征编码(Encoder)无法很好地表达特征,从而造成一定程度上的特征信息丢失。相比于下采样,上采样很难更优地表征特征,所以增加下采样阶段的网络能力对整体网络会更有效。

--------------跨阶段特征融合-------------

图 3

多阶段网络在重复的上采样和下采样过程中,很容易造成信息流失,我们提出了一种有效的跨阶段特征融合方法来应对这一现象。如图 3 所示,上一阶段上、下采样的特征经过 1x1 卷积相加到后一阶段下采样部分,从而实现多阶段之间的特征融合,有效缓解特征流失。

---------------由粗到精监督--------------

图 4

人体姿态估计如果要定位较有挑战性的关节点(如隐藏关节点)需要较强的领域上下文信息。同时,对于基于回归 heatmap 的任务,作为 GT 的高斯核越小,回归精度越准。考虑到以上两点,并结合多阶段网络的自身逐级递进优化的特性,我们提出基于多阶段的由粗到精的监督方式。每个阶段方式的监督 heatmap 的高斯核逐渐减小,可较理想地兼顾领域上下文信息和精准度。由于中间监督对于深度神经网络有较好效果 [3],我们在每个阶段内部也采用了多尺度的中间监督。

-------------实验-------------

实验中,我们使用 MegDet [4] 获得人体检测框,并使用 COCO(80 类)之中人这一类的结果作为人体框结果,没有单独针对人进行训练。抠图之前,框扩展为愉快的小懒猪 4:3 的比例。训练中,我们采用 Adam 作为优化策略,初始学习率为 5e-4,Weight Decay 为 1e-5。数据增强方面,主要采用翻转、旋转(-45 度~+45 度)、尺度变换(0.7~1.35)。姿态估计网络图像输入尺寸为 384x288。消融实验中,图像输入尺寸为 256x192。测试方面,沿用 [5] 中的策略,即采用翻转求平均,最大值位置向次大值位置偏移 1/4 作为最终位置。所有消融实验在 COCO minival 上进行。

消融实验

多阶段网络

我们通过一系列实验验证多阶段网络设计的重要性。

表 2

首先,我们通过实验观察单阶段网络增加模型复杂度的表现。从表 2 可知,ResNet-50 作为 Backbone 的单阶段网络精度可以达到 71.5,ResNet-101 可以提升 1.6 个点,但是继续往高增加复杂度,精度的提升幅度逐渐变小,趋近于饱和。

表 3

我们同时对比了当前主流的多阶段网络 Hourglass 与该工作在精度提升方面的差异。由表 3 可知,Hourglass 在第 2 个阶段以上叠加新阶段提升非常有限:从 2 个阶段到 8 个阶段,计算量增加 3 倍,而精度只涨了 0.7 AP。相比于 Hourglass 的增长受限,MSPN 从第 2 个阶段以上叠加新阶段会持续提升精度。

为验证我们对多阶段网络有效改进的泛化性,我们尝试把其他网络作为单元网络。如表 4,两阶段的 ResNet-18 会稍高于相当计算量的单阶段 ResNet-50 网络。4 阶段小计算量的 X-ception 网络会比同计算量单阶段的大计算量的 X-ception 网络高出近 1 AP。

表 4

跨阶段特征融合以及由粗到精监督

表 5

表 5 的实验可以验证跨阶段特征融合以及由粗到精监督的有效性。对于 4 阶段的 Hourglass 和 2 阶段的 MSPN 借助以上两种策略均实现涨点。

------------实验结果-------------

表 6

表 7

表 6 和表 7 分别对比 MSPN 与当前最优方法在 COCO test-dev 数据集和 COCO test-challenge 数据集上的精度差异。可以看出,MSPN 均超过当前最优方法,在 test-dev 上领先 2.3 AP,在 test-challenge 上领先 1.9 AP。

----------------总结---------------

我们提出了针对人体姿态估计更有效的多阶段网络设计思想,并用充分的实验验证其有效性,该网络在 COCO 数据集上突破当前的精度瓶颈,实现了新的 state-of-the-art。我们同时也验证了该工作所涉及的多阶段网络设计思想的泛化性。

--------------结果例图-----------

图 5

重要的事情再说一遍,欢迎各位同学加入我们 Face++ Detection Team,简历可以投递到 yugang@megvii.com

Reference

[1] Y. Chen, Z. Wang, Y. Peng, Z. Zhang, G. Yu, and J. Sun. Cascaded pyramid network for multi-person pose estimation. arXiv preprint, 2018.

[2] B. Xiao, H. Wu, and Y. Wei. Simple baselines for human pose estimation and tracking. arXiv preprint arXiv:1804.06208, 2018.

[3] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1–9, 2015.

[4] C. Peng, T. Xiao, Z. Li, Y. Jiang, X. Zhang, K. Jia, G. Yu, and J. Sun. Megdet: A large mini-batch object detector. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6181–6189, 2018.

[5] A. Newell, K. 缓慢的刺猬, and J. Deng. Stacked hourglass networks for human pose estimation. In European Conference on Computer Vision, pages 483–499. Springer, 2016.

---------解读者介绍-------

hsdfn,清华大学计算机系硕士,现为旷视科技研究员,人体姿态估计研究负责人,COCO Keypoint 冠军算法 CPN、MSPN 共同第一作者,研究方向涵盖人体姿态估计与跟踪、人体动作识别,并在上述方向有着长期深入的研究;2017、2018 年作为负责人带队参加 COCO 人体姿态识别竞赛(Human Keypoint Detection),连续两次夺魁。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。