rcnn论文,cnn是什么的缩写

R-CNN算法可以说是利用深度学习进行目标检测的开山之作。 2012年，AlexNet网络在ImageNet LSVRC上效果显著，因此R-CNN作者试图将AlexNet的图像分类能力转移到PASCAL VOC的目标检测上。这必须解决两个问题。

利用卷积网络进行目标定位的方法；如何在小数据集上训练更好的网络模型。针对利用卷积网络进行目标定位的问题，R-CNN是一种利用候选区域(Region Proposal )的方法，这也是该网络被称为R-CNN的原因所在Regions with CNN features。针对小数据集问题，R-CNN采用了微调的方法，利用AlexNet网络在ImageNet上使用了预训练的模型。

R-CNN算法步骤

输入一张图像生成1K~2K个候选区域(使用选择搜索方法)；对于每个候选区域，使用深度网络提取特征(CNN )；提取的特征被发送到每个类的SVM分类器中，判断是否属于该类；使用回归器精细修改候选框的位置(Regression )。step1：候选区域的生成

利用selective Search算法，用图像分割的方法得到一些原始区域，然后用合并策略合并这些区域，得到分层的区域结构，这些结构包含必要的物体。

step2：对每个候选区域，使用深度卷积神经网络提取特征

将2000候选区域缩放到227227的大小，然后将候选区域输入到预训练的AlexNet CNN网络以获取4096维特征，得到20004096维矩阵。

step3：提取的特征送入每一类的SVM分类器，判定类别

将20004096维特征与20个SVM组成的权重矩阵409620相乘，得到的得分表明200020维矩阵是每个候选框所在的目标类别。排除对上述200020维矩阵的各列即每个类别进行极大值以外的抑制的重复候选框，得到该列即该类别中得分最高的候选框。

非极大值抑制步：寻找得分最高的目标；删除计算其他目标及其IoU (交叉比)值的所有IoU值大于指定阈值的目标。

step4：使用回归器精细修正候选框位置

进一步筛选NMS处理后剩下的候选框。接下来用20个回归器分别对上述20个范畴中剩下的候选框进行回归操作，最终得到每个范畴修正后得分最高的bounding box。

如图所示，黄色框口P P P表示建议框Region Proposal，绿色窗G G G表示实际框Ground Truth，红色窗G ^ hat{G} G^表示Region Proposal回归后的预测窗，最小二

R-CNN存在的问题

测试速度慢：测试一张图像约53s (处理器)。用Selective Search算法提取候选框大约需要2秒钟，一幅图像中候选框之间存在许多重叠，特征提取操作冗长。训练速度慢：过程非常繁琐。训练所需空间大： SVM和bbox回归训练需要从每个图像的每个目标候选框中提取特征并将其刻录到磁盘。对于非常深的网络(如VGG16 )，从VOCO7培训集中的5k图像捕获的特征需要数百GB的存储容量。 SVM分类器和边界回归器的训练过程与CNN提取特征的过程不同，不能进行特征的学习更新。