fasterrcnn详解,faster rcnn损失函数

引言目前目标检测的方法常用的是YOLO系列模型，毫无疑问YOLO框架在速度性能和预测精度方面能很好地满足工业需求。通过仔细分析YOLO系列型号，可以看到其体系结构是基于RCNN系列型号优化的扩展。本文详细研究了RCNN系列模型的演化过程，包括对第一个RCNN、随后优化的Fast-RCNN和进一步优化的Faster-RCNN模型的分析。

RCNN网络过程RCNN作为一种开创性的目标检测框架，首次将卷积神经网络结合到目标检测过程中，用深度卷积网络提取的特征替代传统特征(如SIFT、HOG特征等)。整体推理过程分为三个部分。

使用selective search算法对发送来的图像进行Region Proposals (区域提案)。简而言之，通过selective search算法提取图像中可能存在物体的区域，共提取1000~2000个区域。这里不详细说明选择搜索算法。

第一步得到边框选中的图像部分，对边框选中的图像进一步进行缩放操作，进入CNN网络架构。这里所谓resize，是为了能够将在不同的框中选择的图像的大小变形为统一的尺寸，以满足CNN的输入条件。当然，这里有一个很大的问题是，如果勉强缩放不同尺寸的图像，那么必然会在框中选择的原图像中产生失真，从而导致图像失真。这也是后来的模式

第二阶段，可以得到框选择图像的特征信息，即区域方案的特征信息，将每个区域提出的特征及其标签类别作为一个样本，训练多个支持向量机对目标进行分类，每个支持向量机都有样本以各方案领域的特征及其标注边框为一个样本，训练线性回归模型预测真实边框。

RCNN的弊端RCNN取得的开创性成果，但我们通过分析RCNN的过程可以发现该网络存在一些严重的弊端。

利用selective search算法选出的2000个预选框并不批量发送到CNN网络，而是将选定的图像依次采集到CNN中进行特征提取，同时selective search算法通过CPU进行运算在“网络进程”的第二阶段，框中选择的图像需要进行缩放，才能进入CNN网络。这里的缩放不是图像的等比缩放，而是分别按任意比例缩放长度和宽度。简单来说，因为是在日常的图像操作中拖动图像的情况，所以无法保证原图像中有效的信息能够正确地被CNN读取并提取特征。在RCNN网络预测过程中，分别采用SVM对特征结果进行了分类预测和定位框回归预测，这也增加了网络冗馀度，使网络无法进行端到端预测； Fast-RCNN Fast-RCNN是优化RCNN的网络架构，其中向CNN提供输入图像以产生卷积特征图，而不是向CNN提供区域建议。根据卷积特性图识别区域提案，并将其扭曲为正方形。通过使用RoI池层，可以重建为固定大小并将其送入完全连接层。根据RoI特征向量，使用softmax层预测建议区域的类别和边界框的偏移值。其中RoI的方案借鉴了SPPnet思想，其中还有一个重要环节——“区域方案映射”。即，将选择的预选框的左上点坐标和右下点坐标映射到特征图像的预选框。请参考SPPnet的源代码和Fast-RCNN的源代码。

网络过程对每个训练图像执行选择性搜索算法以提取感兴趣区域；假设IoU计算这些感兴趣区域和训练图像的ground truth (公式如下，图像如图3所示)，大于0.5 (或其他阈值)的为正样本，小于阈值的为负样本。

根据IOU值对所有正样本进行排序，每个图像取前64个区域，保存这些区域的坐标，作为该图像的训练样本；关于多目标图像的处理方法，计算感兴趣区域和各ground truth作为IOU值，将最高的作为该IOU值；经过以上步骤，我们在每个图像中得到了64个区域坐标。也就是说，可以固定每个图像的感兴趣区域的数量，用于后续训练。 Fast-RCNN的弊端Fast-RCNN体系结构没有完全优化RCNN的弊端，区域方案仍然采用选择搜索算法，模型体系结构中的瓶颈在于预选框计算的瓶颈