目标检测综述论文,小目标检测问题

以下记录了几篇论文的阅读总结：

算法的发展历程：传统图像算法：传统图像算法使用hand-made feature，常用方法有SIFT、HOG、图像金字塔等。针对小目标的检测，由于传统的图像算法存在人工复杂度高、模型通用性差等缺点，逐渐被深度学习模型所取代。

深度学习：在深度学习的嵌入式神经网络模型中，小目标检测一直是一个挑战。早期目标检测框架(R-CNN，YOLO系列)均对小目标检测效果不佳。近两年来，提出了一种利用多层特征图的方法(特征金字塔、RNN思想、分层预测)，小目标检测效果显著提高。现阶段主流算法：图像金字塔：早期提出在训练图像上采样多尺度图像金字塔。通过上采样可以增强小目标的细粒度特征，理论上可以优化小目标检测定位和识别效果。但是基于图像金字塔训练卷积神经网络模型对计算机的计算能力和内存要求非常高。计算机硬件的发展至今仍很困难。因此，该方法在实际应用中极少。逐层预测：该方法对卷积神经网络逐层特征图的输出进行了一次预测，最后综合考虑后得出结果。同样，该方法也需要非常高的硬件性能。特征金字塔：在借鉴多尺度特征图特征信息的同时，兼顾了强语义特征和位置特征。该方法的优越性在于多尺度特征图是卷积神经网络中固有的转移模块，堆栈多尺度特征图对于算法复杂度的增加微乎其微。 RNN思想：借鉴RNN算法中的阈值机制、长短期记忆等，记录了多层次的特征信息(注：与特征金字塔本质不同)。但是，RNN固有的缺点是训练速度慢(部分操作不能矩阵化)。 (弥补原因) ) ) ) ) ) ) )。

1算法研究Hypercolumnsforobjectsegmentationandfine-grained localization算法思想：传统方法： (CNN进行图像处理的该模型组)嵌入式神经网络用作p进行objectClara的缺点： CNN网络的最后一层对范畴层的语义信息敏感，对扰动(姿态、光线、关节和位置)不敏感。细粒度分析包括目标分割、姿态分析等，直接使用最后一层并不是最佳选择。顶层卷积层的feature maps缺乏高度提取信息和准确定位的信息；中间层的feature maps虽然拥有正确的位置信息，但无法捕捉语义整体的信息。本文考虑用一定的方式对每个卷积层得到的feature maps信息进行“汇总”，得到“hypercolumns”，利用同时包含语义信息和位置信息的该矢量进行像素的精细化定位。具体做法：

信息提取：传统的CNN过程提供了每一层的功能图

统一大小(用双线性插值法(bilinear interpolation )对每个feature maps进行resize，完成上采样工作，达到统一大小的效果

连接矩阵得到hypercolumn :直接连接必要的中间层feature maps得到长矩阵。矩阵中的每个向量表示该像素点的所有信息。此矩阵上的每个向量表示一个像素点的hypercolumn。 (实际计算时并不是按每个pixel进行，而是将图像分割为多个grid，按每个grid进行这样的操作)

object class ification :按网格分类。

每个像素都由hypercolumn表示，每个hypercolumn都包含需要图层的feature maps的信息

效果：

用hypercolumns的想法进行bounding box的识别，可以得到更正确的效果。

提出了一种利用detectingobjectsincontextwithskippoolingandrecurrentneuralnetworks 3358 www.Sina.com/: ROI区域内外信息进行区域识别的内外网络结构。外部通过2个IRNN网络合并ROI区域外的图像信息；在内部，通过Skip Pooling提取多个尺度(conv3/conv4/conv5 )上的信息；结合内外信息，用于分类和位置修正。 3358 www.Sina.com/: 1通过ROI pooling层将内部信息(conv3/conv4/conv5 )和外部信息固定为统一大小；

2将得到的大小统一的特征信息分别用尺度标准化后，进行连接，得到一个高维特征信息；

3对该特征信息进行尺度和维度调整后，传送到全连通层进行分类和位置校正。

效果：通过结合上下文信息和多尺度特征信息，提高了小目标的检测精度。下图为将AP进行归一化之后的对比结果。最左侧的蓝色部分代表fast rcnn的检测精度；最右侧的粉红色部分代表本文的一个模型的检测精度。可以看出，小目标物体的检测精度有了极大提高。

Feature Pyramid Network 算法思想：作者提出了从上到下的路径和横向路径。从上到下的路径是指对网络结构深层的特征图进行上采样操作，使其跟网络浅层特征图大小一致，从而能够进行特征图堆叠。横向路径是指对每一卷积模块的最终特征图，采用1X1卷积核进行降通道操作，减少特征图的个数。最终利用堆叠起来的多尺度特征图进行分类及定位的模型学习。算法效果：对于FPN做法的可行性，作者指出，浅层特征图的语义特征较弱，而位置特征较强；相反，深层特征图的语义特征较强，但损失了精确地位置特征。同时利用浅层特征图和深层特征图，能够综合考量强位置特征和强语义特征，因此提升模型效果。Fully Convoluntional Network 算法思想：整体思想与FPN相似。创新点在于（1）舍弃了全连接层，将全连接层换为等价的1X1卷积核，从而使得网络输入的图片尺度可以不一致。（2）对堆叠后的特征图继续进行上采样，使得其和原图大小一致。对上采样后的堆叠特征图，在其映射到原图位置的像素点上做分类预测。这样，可以基于原图做出精细的图像分割。算法效果：FCN开创了精细图像分割的先河，其之后的MASK-RCNN等算法也借鉴了其思想。对于小目标检测，可以通过像素点的分类，做出更精细的位置划分。Learning Object Detectors from Scratch with Gated Recurrent Feature Pyramids DSOD算法思想：可以简单理解为SSD+DenseNet=DSOD。首先去掉了ROI Pooling，Faster-RCNN这类方法不收敛，SSD收敛，所以作者选择了SSD进行改进，之后加入DenseNet思想，特征会影响之后的layers，从而构建出了DSOD。

缺陷：单层的特征金字塔只有一个尺度的特征表达，像SSD，FPN ，各层的特征相互独立，没有关联；另一重要限制在于当前最优的方法中的每层金字塔贡献出的监督信息是固定的。

GRP-DSOD算法思想：简而言之就是一种根据中间层不同尺度动态调整监督强度的目标检测方法。这种方法是DSOD方法的改进。针对上面的缺陷提出了以下两种方法改进。提出了recurent feature pyramid，通过拼接高水平的语义特征和低水平的空间特征到单个金字塔层中；于是在当前层拼接了下采样得来的细粒度信息以及上采样得来的粗粒度信息，使每个预测层含有丰富的多尺度特征。

应用了一个门限机制，在小尺度上的目标很容易被细粒度特征（低水平）检测到，此时，从低水平特征得来的信号应该被增强，在大尺度上的目标很容易被粗粒度特征（高水平）检测到，此时，从高水平特征得来的信号应该被增强。

算法效果：DSOD这种方法总结就一句话：作者不用预训练，一切从零开始撸起袖子干，照样干的和其他的state-of-art一样好！而GRP-DSOD的Map也有了一定的改进。

以上是一些算法调研，最终针对项目我们使用了FPN+FasterRcnn,这个模型在Detectron中有demo。