FPN 变 Hourglass 为特征提取器

featurepyramidnetworksforobjectdetection，2017年

文章目录abstractintroductionrelatedworkhand-engineeredfeaturesandearlyneuralnetworksdeepconvnetobjectdetectorsmethodsusingmultipltipll uppathwaytop-downpathwayandlateralconnectionsapplicationsfeaturepyramidnetworksforrpnfeaturepyraming astr-cnnexperimentsonononon withrpnimplementationdetailscomparisonswihtbaselineshowimportantistop-doop wimportantarelateralconnectionshowimportantarererepyral tectionwithfast/fasterr-cnnimplementationdetailsfastr-cnnfasterr-cnncomparingwithcococompetionwinnersextensions 3360

这不是和Hourglass差不多吗？ “隐藏脸部”表示以后会对每个上采样进行输出，集中于在高分辨率级别或任意级别构建高级语义信息。 Abstract特征金字塔在识别任务中起着识别多尺度目标的重要作用，但由于特征金字塔的计算和存储开销很大，很多网络都避免了使用。 FPN采用双顶端结构和横向连接，在不增加额外计算存储资源的情况下构建任意尺度的高级语义特征。 FPN可以广泛应用于特征提取器，例如用于Faster R-CNN。国际教育

在物体检测任务中，需要对不同尺度的物体全部做出响应。基于图像金字塔构建的特征金字塔(特征图像金字塔)具有尺度不变性，使模型具有检测不同位置不同尺度物体的能力。

传统上，在人工构建特征的时代，特征图像金字塔很流行。但目前多采用卷积网络实现图像特征的提取，表现力高于人工构建特征。然而，尽管如此，一个任务仍然需要在特征金字塔中进一步细分的特征，并且可以在任何给定的尺度上具有强大的语义特征。 (一般来说，越高级语义特征越出现在卷积层之后，此时对应的特征图也具有相对低的分辨率；低级特征通常出现在更高级别而不是语义级别，其中，对应特征图的分辨率通常较高)。 FPN这里讨论的矛盾点是，高分辨率的浅层网络层不适合高级语义特征吗？ FPN是解决这个问题的东西。

SSD采用卷积网络自然构建的特征金字塔，浅层对应的特征语义层次不够，很难检测到它是什么，因此SSD舍弃了前端浅层的特征，相对靠后构建。但是浅层网络的特点完全没有用吗？相反，对于大物体来说，浅层网络的响应对边界的判断有很好的帮助。 (Mask R-CNN是个很好的例子)，对小物体来说更重要。这些浅层的特征正好是有助于检测这些小物体的关键。 (哈哈哈，所以固态硬盘也用小物体检测不到啊)

FPN想解决这个矛盾，在任意尺度上，即使是高分辨率/低水平的尺度也想具有强有力的语义特征。为此，FPN通过一个前端的结构，加上横向的连接，将低分辨率的高级特征和高分辨率的低级特征结合起来，在任何尺度上都具有丰富强大的语义特征。该操作成本小，即FPN取代了特征图像金字塔，用小的成本在网络中构建了任意尺度的语义特征。 (到目前为止，这些操作同样出现在前面的Hourglass中。)

FPN进行的该工作可以用于物体的检测，大大提高小物体的检测；也可用于任务分割，如语义分割or实例分割。

related work hand-engineeredfeaturesandearlyneuralnetworks的特色项目鲜为人知。

Deep ConvNet object detectors卷积神经网络的特点鲜为人知。

Methods using multiple layers具有使用多尺度特征(如FCN和固态硬盘)的任务。另外，还有一些工作是使用横向连接来结合高级低级特征(如U-Net、Hourglass等)，但这些工作只是最后预测，而不是按任意尺度预测。该差异如下图2所示。上图是在最后一个finest中预测的，下图是在多个尺度上独立预测的，不需要到最后。

Featu

re Pyramid Networks

本文中 FPN 主要在 RPN 和 Fast R-CNN 上发力，也可以应用在实例分割任务中。FPN 接受任意大小的图片，在各个层级输出按比例计算大小的特征图。FPN 只是一种思想和手段，也就是 bottom-up 和 top-down 以及 lateral connections（超级像 Hourglass，只是多输出而已）独立于具体使用的网络骨架。

Bottom-up pathway

将有同样分辨率的特征图归为同一 stage，每个 stage 中选择最后一个特征图来参与构建特征金字塔，可以考虑放弃最前面的特征图（如果运算资源消耗太大的话，但是不能放弃太多 stage，不然就退化为 SSD 了）。

Top-down pathway and lateral connections

这里也和 Hourglass 几乎一模一样，双线性插值下来的，每个 stage 有来自于 bottom-up 阶段同 stage 的连接直接 add 过来。横向连接能够结合更细致的局部信息和更高级的语义信息（这也和 Hourglass 一样啊），用于构建更好的特征。

Applications Feature Pyramid Networks for RPN Feature Pyramid Networks for Fast R-CNN Experiments on Object Detection Region Propasal with RPN Implementation details Comparisons wiht baselines How important is top-down enrichment How important are lateral connections How important are pyramid representations Object Detection with Fast/Faster R-CNN implementation details Fast R-CNN Faster R-CNN Comparing with COCO Competition Winners Extensions: Segmentation Proposals Segmentation Proposal Results Conclusion