目标检测算法综述,单阶段目标检测算法

Girshick，Ross，et al .“richfeaturehierarchiesforateobjectdetectionandsemanticsegmentation .”proceedingsoftheieeeeeecontation

regionCNN(rcnn )曾多次获得利用深度学习进行目标检测的开山之作作者Ross Girshick在PASCAL VOC目标检测竞赛中的冠军，2010年带队获得终身成就奖，目前位于脸书旗下的fairshick

该文思路简洁，DPM方法进入平台期多年后，效果显著提高。包括本文在内的一系列目标检测算法： RCNN、Fast RCNN、Faster RCNN代表当前目标检测的前沿水平，在github都给出了基于Caffe的源码

本文解决了目标检测中的两个重要问题。

问题1 :速度经典目标检测算法采用滑动窗法依次判断所有可能的领域。本文预先提取一系列很可能是物体的候选区域，然后只在这些候选区域提取特征并进行判断。

问题2 :训练集经典目标检测算法在区域中人工提取设定特征(Haar，HOG )。本文训练深度网络特征提取有两个可用的数据库。

较大的http://www.Sina.com/(imagenetilsvc 2012 ) :确定每个图像中物体的类别。千万图像，1000种。

小http://www.Sina.com/(Pascal VOC 2007 ) :确定每个图像中物体的类别和位置。 1万幅图像，20类。

本文利用识别库进行预训练，然后利用检测库对参数进行调谐。最后在检查库中进行评价。

过程RCNN算法分为四个步骤

针对一张图像发送1K~2K个识别库每个候选区域使用深度网络检测库特征发送每个类的SVM3358www.Sina.com/，其

候选区域生成部使用Selective Search1方法从1张图像生成约2000-3000个候选区域。基本想法如下

采用一种过分割手段，将图像分割成小区域看现有小区域，合并候选区域两个区域。重复进行直到整个图像被合并为一个区域的位置，输出曾经存在的所有区域。所谓的候选区域产生和后续步骤是相对独立的，并且可以使用实际上任何算法来执行。

合并规则优先合并以下四个区域：

颜色(颜色直方图)接近纹理(梯度直方图)接近合并后的总面积小合并后，总面积占其BBOX的比例大的第三条保证合并操作的尺度均匀，一个大区域一个接一个地"吃掉"其他小区域

例如，设置区域a-b-c-d-e-f-g-h。较好的合并方式为ab-cd-ef-gh - abcd-efgh - abcdefgh。

不良合并方法为a B- c-d-e-f-g-h-ABCD-e-f-g-h-abcdef-GH-abcdefgh。

第四条，保证合并后的形状规则。

例：左图适合合并，右图不适合合并。

上述四条规则仅与区域颜色直方图、纹理直方图、面积和位置有关。综合区域特征可以直接从子区域特征计算，速度快。

多样化和后处理尽量不减少候选区域，上述操作在多个颜色空间同时进行的RGB、HSV、Lab等]。在一个颜色空间中，使用上述四个规则的不同组合进行合并。所有颜色空间和所有规则的所有结果都将在消除重叠后作为候选区域输出。

作者提供了Selective Search的源代码，其中包含许多. p和. mex文件，很难仔细审查具体实现。

在利用特征提取预处理深度网络提取特征之前，首先将候选区域归一化为相同大小的227227。

这里可以更改一些细节，例如向外扩展的尺寸大小、变形时是否保持原始比例、是直接剪切边框外的区域还是补灰等。稍微影响性能。

预训提取特征

基本上参考hinton的2012年Image Net上的分类网络2进行简化3。

该网络提取的特征是4096维，然后送入4096-1000的全连接(fc )层进行分类。

学习率0.01。

分类器

使用ILVCR 2012的所有数据进行训练，输入一张图像，输出1000维的类别标签。

调谐训练精细修正

使用上述网络，最后一层更换为4096-21的所有连接网络。

学习率为0.001，每个batch包含32个正样本(20级)和96个背景。

ng>训练数据
使用PASCAL VOC 2007的训练集，输入一张图片，输出21维的类别标号，表示20类+背景。
考察一个候选框和当前图像上所有标定框重叠面积最大的一个。如果重叠比例大于0.5，则认为此候选框为此标定的类别；否则认为此候选框为背景。

类别判断

分类器
对每一类目标，使用一个线性SVM二类分类器进行判别。输入为深度网络输出的4096维特征，输出是否属于此类。
由于负样本很多，使用hard negative mining方法。
正样本
本类的真值标定框。
负样本
考察每一个候选框，如果和本类所有标定框的重叠都小于0.3，认定其为负样本

位置精修

目标检测问题的衡量标准是重叠面积：许多看似准确的检测结果，往往因为候选框不够准确，重叠面积很小。故需要一个位置精修步骤。
回归器
对每一类目标，使用一个线性脊回归器进行精修。正则项 λ = 10000 lambda=10000 λ=10000。
输入为深度网络pool5层的4096维特征，输出为xy方向的缩放和平移。
训练样本
判定为本类的候选框中，和真值重叠面积大于0.6的候选框。

结果

论文发表的2014年，DPM已经进入瓶颈期，即使使用复杂的特征和结构得到的提升也十分有限。本文将深度学习引入检测领域，一举将PASCAL VOC上的检测率从35.1%提升到53.7%。
本文的前两个步骤（候选区域提取+特征提取）与待检测类别无关，可以在不同类之间共用。这两步在GPU上约需13秒。
同时检测多类时，需要倍增的只有后两步骤（判别+精修），都是简单的线性运算，速度很快。这两步对于100K类别只需10秒。

以本论文为基础，后续的fast RCNN4（参看这篇博客）和faster RCNN5（参看这篇博客）在速度上有突飞猛进的发展，基本解决了PASCAL VOC上的目标检测问题。

J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders. Selective search for object recognition. IJCV, 2013. ↩︎

A. Krizhevsky, I. Sutskever, and G. Hinton. ImageNet classification with deep convolutional neural networks. In NIPS, 2012 ↩︎

所有层都是串行的。relu层为in-place操作，偏左绘制。 ↩︎

Girshick, Ross. “Fast r-cnn.” Proceedings of the IEEE International Conference on Computer Vision. 2015. ↩︎

Ren, Shaoqing, et al. “Faster R-CNN: Towards real-time object detection with region proposal networks.” Advances in Neural Information Processing Systems. 2015. ↩︎