(深度学习（二）—图像检测算法（faster R-cnn）简单易懂的思路整理)

基础知识的掌握情况决定着研究的水平。当我们开始接触深度学习的时候，一般都在看别人的摘要。这个方法很好我们很快就能得到，但也有很大的缺点。知识理解不够，算法优化蒙上了一层雾。我也抱着总结知识的想法，开始探索自己深度学习知识的精髓。我希望从中能对很多人有帮助。文章中间有不清楚的地方，请研究者(研究深度学习的朋友)提出来，我会努力完成自己的文章。

进入主题，faster R-cnn通俗易懂的思考整理：

模块介绍：

1、最重要的模块——RPN (区域推荐网络) )。

该网络改善了选择R-cnn、Faste R-cnn候选框架带来的时间问题。 R-CNN和检测网络共享全图的卷积特征，缩短了区域方案的时间。首先扫描整个特征图的像素点，然后围绕每个像素点生成九个anchor。这9个anchor是超级参数，我们自己固定。一般设置为三个不同的比例和三个不同大小的参数。每个像素点得到的框，根据特征对他们进行分类，主要采用二分类，判断是前景还是背景，去掉背景框，剩下的都是包含检测物体特征的框。再次过滤剩下的复选框。

现在开始区分和训练过程：

培训有目标地面路线，您可以根据此框与我们现有的anchor进行筛选。首先删除框本身重叠度高的，得到剔除效果。另外，还有表示anchor-box和ground-truth-box重复度的IOU参数。如果IOu大于我们设定的超级参数(通常为0.7 )，则保留下来，保证选择正确的框。还有一个小IOU的(一般是0.3 )也剩下。这样，为了保证分类训练样本输入的局部特征，可以保证是能够识别缺损部分图像的信息。

接下来有两个分支。

1、用softmax分类，求出每个框架的得分和类别。然后求回归，训练网络卷积和全连接层权重。

2、将边框移动到ground-true box，学习边框的回归参数，微调边框。所获得的训练参数可以基于输入特征(对应于中心点的纵横比的卷积特征)和所学习的权重矩阵来精细地调整纵横比。

检查的时候，我们没有真正的框架，是我们选择候选框架的时候了。寻找识别度最高的盒子，根除微调参数进行校准，可以获得较好的效果。

线性回归是给定输入的特征向量x，以学习一组参数w，使得线性回归后的值非常接近真实值y (接地轨迹)。也就是说。那么我们在Bounding-box上的输入和输出分别是什么呢？

输入：

这是什么？要输入这四个数值吗？其实真正的输入是与这个窗口相对应的CNN的特征，也就是R-CNN中的Pool5feature (特征向量)。 (注意：培训阶段的输入还包括接地路径，即：

输出：

所需的平移变换和缩放比例调整，或是的。我们的最终输出不是Ground Truth吗？是的。但是，有了这四个变换，我们就可以直接得到接地路由。这里还有一个问题。从上面的四个表达式可以看出，经过p后，可以得到预测值，而不是真正的值g。