清华博商是什么机构(考研清华培训班)

从arXiv中选择

作者： Yifan Sun等

机器的心编译

参加： xxdfd，道路

利用某些层面特征的行人图像描述提供了细粒度的信息，最近的文献证明有利于人物检索。针对外部线索法，清华大学、悉尼大学、德克萨斯大学的研究者采用内部一致性假设，提出了新的基线网络和精炼部分池化方法，实现了更好的人物检索性能，超过了目前的最佳结果。

行人检索又称行人再识别(person re-IDentification，re-id ) )，基于特定的行人，从大型数据库中检索特定相关人行道的图像。目前，深度学习方法主导着这一领域，其性能超过了人工搜索者[40]。通过深度学习获得的特征提供高度的判断力。特别是通过深度学习得到的一些特征被汇总了的情况。 re-ID基准最新的当前最优性能是利用部件信息深层特征得到的[ 35，27，37 ]。

图1 :多个行人搜索深度部分模型的分区策略。 (从(a )到) e ):GLAD [31]、PDC [27]、DPL [35]、Hydra-plus [22]和PAR [37]的划分部分别从对应的论文中切出。 (f )本论文提出的方法采用统一的分区方式，对每个条纹状的框架进行提炼。 PAR [37]和本文的方法都实施了“软”分区，但两者有很大的差异。

学习判别性部分特征的前提条件是正确定位这些部分。最近的SOTA方式的分区策略不同，可以分为两类。第一类[38、27、31]利用外部线索，例如利用人体姿态估算近期进展的援助[23、32、15、25、2] 这些都依赖于外部人体姿态估计数据集和复杂的姿态估计器。姿态估计和行人搜索之间的基础数据集偏差是对行人图像进行完美语义划分的一大障碍。另一种类型[ 35，37，22 ]不使用意义部分的线索。这些虽然不需要部分标注，但是准确率和第一类没有很大差别。图1中列出了分区策略的一部分。与学习部层次深度特征的进步相反，本文的研究者重新审视了构成良好对齐部分的机制。语义分区可能提供良好的对准稳定的线索，但有可能发生噪声姿态检测。本文从另一个角度出发，以各部分的一致性为重点，认为这是空间对准的重要因素。然后，本研究的目标是给出粗糙的分区部分，细化和加强部分内部的一致性。具体而言，本文做出了以下贡献。

首先，提出了对卷积层进行统一分区分割的基于部分的卷积基线(PCB )网络，据此学习部分层次的特征。但是，这种方法无法明确分割图像。 PCB输入整个图像，输出卷积特性。作为分类网络，PCB的体系结构非常简单，只需对主干网进行一点修改。训练过程也非常标准，不需要太好的技巧。研究人员发现卷积描述器具有比常用的FC (描述器更高的判别能力)。在Market-1501数据集上，网络性能从85.3%的rank-1精度和68.5%的mAP提高到92.3% (7.0% )的rank-1精度和77.4% (8.9% )的mAP，成为当前的

其次，提出了精炼统一地块的自适应池化方法。他们认为各部位的信息应该一致，但在同一划分中观察到各部分存在异常值。这些异常值实际上可能接近其他部分的信息，显示了内部的不匹配。因此，研究人员通过将这些异常值重新定位在最近的分区部分，可以精炼统一分区，提高内部的一致性。图1(f )显示了精炼的部分的例子。通过本文提出的精炼部分池化(RPP )，Market-1501下的模型性能进一步提高到了93.8% ) 1.5% )的rank-1精度和81.6% ) 4.2% )的mAP。

研究者将这两种方法结合起来，在人物检索上实现了新的当前最佳水平。重要的是，实验证明精炼的部分优于注意部分，即通过注意机制学习的部分。

图2:PCB的结构。输入图像通过由主干网形成3D张量的叠置在前方传播上的卷积层。 PCB将原始的全局池化层置换为卷积池化层，在空间上以t为p个列矢量g进行采样。之后的1x1核大小的卷积层减少了g的维数。最后，按维度减少的列向量h分别输入到1个识别器。各分类器由全连接层和串行softmax层实现。在训练过程中，各分类器预测输入图像的身份，并通过交叉熵损失进行监督。在测试过程中，g或h的p个部分连接在一起，构成输入图像的最终描述符。

图3 :部分

的内部不一致性的可视化。图左：T 在训练过程中被平等地分为 p=6 个水平条（部分）。图右：T 中的每个列向量用一个小矩形表示，并以和它最接近部分的颜色着色。

图 4：PCB 结合精炼部分池化方法。由于这里仅关心空间分区，3D 张量 T 简单地由一个矩形而不是方块表示。在 T 之前的曾被忽略，因为它们和图 2 中的相比没有变化。一个部分分类器预测每个列向量属于 p 部分的概率。然后每个部分从所有列向量中按对应概率（作为采样权重采样）。GAP 表示全局平均池化。

论文：dddxrk Part Models: Person Retrieval with Refined Part Pooling (and A Strong Convolutional Baseline)

论文链接：https://arxiv.org/pdf/1711.09349.pdf

摘要：利用部分级特征进行行人图像描述提供了细粒度的信息，已在近期文献中被证明对于人物检索很有用。基于部分检索的先决条件是每个部分都需要良好定位。本文没有使用外部线索（例如姿态估计）来直接定位部分，而是假设每个部分存在内容一致性。具体来说，我们的目标是学习判别性的 part-informed 的特征用于人物检索，并作出了两项贡献。（i）提出了一种称为基于部分的卷积基线网络（PCB）。给定一幅图像输入，它输出输出一个有多个部分级特征构成的卷积描述子。利用统一的分区策略，PCB 相比当前最佳方法达到了更有竞争力的性能，使其能作为人物检索的强大卷积基线。（ii）提出了一种精炼的部分池化（RPP）方法。统一的分区不可避免地会在每个部分导致异常值，这些异常值在实际上和其它部分更相似。RPP 重新分配这些异常值到它们最接近的部分中，得到增强部分内部一致性的精炼部分。实验表明 RPP 允许 PCB 获得另一轮性能提升。例如，在 Market-1501 数据集中，我们达到了（77.4+4.2）%mAP 和（92.3+1.5）% 的 rank-1 准确率，远远超越了当前最佳方法。