首页 > 编程知识 正文

微软面部识别可以添加几个人(微软电脑人脸识别突然无效)

时间:2023-05-06 17:04:58 阅读:91712 作者:1802

从arXiv中选择

作者: yifu张之类的

机器的心编译

参与:魔王、张21;

如何将目标检测和重新识别合并到一个框架中以解决多个目标跟踪任务? 华中科技大学和微软亚洲研究院的研究人员发现了这个方向的痛处,同时提出了简单有效的新方法。 该方法以30 fps运行时,在公开数据集上的性能超过了以前的SOTA结果。

近年来,目标检测和重新识别取得了很大的进步,它们是多目标跟踪的中心组件。 但是,没有多少研究者希望在一个框架内完成这两个任务,从而提高估计速度。 但是,最初朝着这个方向努力的研究者,由于不能恰当地学习再认识任务,得到了性能下降的结果。

最近,华中科技大学和微软亚洲研究院的研究人员挖掘了这次失败背后的原因,并提出了更简单的基线方法来解决这些问题。 该方法以30 fps运行时,在公开数据集上的性能超过了以前的SOTA结果。

效果有多大? 不用说,直接上图(密恐慎入) :

FairMOT在MOT挑战测试集中的效果。

此外,该研究还公开了代码和预训练模型。

论文地址: https://Arxiv.org/PDF/2004.01888.PDF Github地址: https://Github.com/IF Zhang/Fair mot多目标跟踪的难点

多目标跟踪(MOT )是计算机视觉领域的重要任务,目前最好的方法通常使用两个单独的模型。 首先使用检测模型确定图像中目标的包围盒的位置,然后使用相关模型提取每个包围盒的重新识别(Re-identification,Re-ID )特征,并基于这些特征进行了定义

近年来,目标检测和Re-ID都取得了很大的进步,提高了目标跟踪的性能。 然而,现有方法不能以视频帧速率执行估计,因为两个网络不能共享特性。

随着多任务学习的成熟,目标检测和Re-ID相结合的一键式方法越来越受到关注。 由于这两个模型共享大部分的特征,所以有可能大幅缩短估计时间。

但是,one-shot法的精度与2阶段法相比明显下降,特别是在ID转换(identity switch )量大幅增加的情况下。 也就是说,把这两个任务合二为一并不容易,需要慎重看待。

对目标跟踪结果影响最大的因素是什么?

华中科技大学和微软xqdwg的这项研究没有通过训练途径提高跟踪精度,而是分析了“二合一”失败的原因,试图提出一种简单有效的基线方法。

研究表明,以下三个因素对跟踪结果影响最大。

锚点和Re-ID不匹配

现有的one-shot跟踪器[ 35,33 ]是从目标检测器开发的,因此基于锚点。 但是,锚点不适合学习Re-ID的特征。 这是因为,首先,与不同图像块对应的多个锚点可能负责估计相同目标的id,从而导致严重的歧义(参见图1 )。 另外,为了平衡精度和速度,特征地图的大小必须缩小为1/8。 这对于检测任务是可以接受的,但对于Re-ID来说有点粗糙,因为目标中心可能与在粗糙的锚点位置提取的特征不一致。

该研究对此提出的解决方案是,将MOT问题视为高分辨率特征图上像素级的关键点(目标中心)估计和id分类问题。

图1 ) ) a )黄色和红色锚点的图像块不同,但推测为相同的ID (穿着蓝色上衣的人)。 另外,由于基于锚点的方法通常在粗糙的网格上执行,因此由这样的锚点(红色或黄色五角星)提取的特征与目标的中心不一致的概率很高。 ) b ) anchor-free法的模糊性很少。

聚合多层特征

这对于MOT问题特别重要,因为Re-ID特性必须利用低级和高级特性来满足小型需求

和大型目标。研究者通过实验发现,这对降低 one-shot 方法的 id 转换数量有所帮助,因为它提升了处理尺度变换的能力。

Re-ID 特征的维度

之前的 Re-ID 方法通常学习高维特征,在其基准上达到了不错的结果。但是,该研究发现较低维度的特征对于 MOT 任务效果更好,因为该任务的训练图像比 Re-ID 少(由于 Re-ID 数据集仅提供剪裁后的人像,因此 MOT 任务不使用此类数据集)。

学习低维特征有助于降低过拟合的风险,并提升目标跟踪的稳健性。

方法

下图 2 展示了该研究提出的方法。

首先,采用 anchor-free 目标检测方法,估计高分辨率特征图上的目标中心。去掉锚点这一操作可以缓解歧义问题,使用高分辨率特征图可以帮助 Re-ID 特征与目标中心更好地对齐。

然后,添加并行分支来估计像素级 Re-ID 特征,这类特征用于预测目标的 id。具体而言,学习既能减少计算时间又能提升特征匹配稳健性的低维 Re-ID 特征。

在这一步中,研究者用深层聚合算子(Deep Layer Aggregation,DLA)[41] 来武装主干网络 ResNet-34 [13],从而融合来自多个层的特征,处理不同尺度的目标。

图 2:该研究提出的 one-shot MOT 跟踪器图示。首先将输入图像馈入编码器-解码器网络,以提取高分辨率特征图(步幅=4);然后添加两个简单的并行 head,分别预测边界框和 Re-ID 特征;最后提取预测目标中心处的特征进行边界框时序联结。

实验

研究者在 MOT 挑战赛基准上借助评估服务器评估了本文提出的方法。与其他在线跟踪器相比,本文提出的方法在 2DMOT15、MOT16、MOT17 及 MOT20 数据集上均名列第一。此外,在 2DMOT15、MOT16 和 MOT17 数据集上,该方法的性能还优于离线跟踪器(MOT20 是个新数据集,之前研究没有相关结果)。虽然结果比较惊艳,但该方法非常简单,且运行速率为 30 FPS。

控制变量研究

1. 基于锚点(anchor-based)和无锚点(anchor-free)

表 1:在 MOT15 数据集上,基于锚点和无锚点方法在验证视频上的评估结果。

2. 多层特征聚合

表 2:不同主干网络在 2DMOT15 数据集上的评估结果。

表 3:主干网络对不同尺度目标的影响。

Re-ID 特征维度

表 4:不同 Re-ID 特征维度在 2DMOT15 数据集上的评估结果

与当前最佳模型的比较

研究者将本文提出的方法与当前最佳方法进行了对比,包括 one-shot 方法和 two-step 方法。

表 5:在两个数据集上与当前最佳 one-shot 跟踪器的对比结果。

表 6:与「private detector」设定下的 SOTA 结果进行对比。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。