首页 > 编程知识 正文

(深度学习(二)—图像检测算法(faster R-cnn)简单易懂的思路整理)

时间:2023-05-04 22:11:32 阅读:121588 作者:2530

基础知识的掌握情况决定着研究的水平。 当我们开始接触深度学习的时候,一般都在看别人的摘要。 这个方法很好我们很快就能得到,但也有很大的缺点。 知识理解不够,算法优化蒙上了一层雾。 我也抱着总结知识的想法,开始探索自己深度学习知识的精髓。 我希望从中能对很多人有帮助。 文章中间有不清楚的地方,请研究者(研究深度学习的朋友)提出来,我会努力完成自己的文章。

进入主题,faster R-cnn通俗易懂的思考整理:

模块介绍:

1、最重要的模块——RPN (区域推荐网络) )。

该网络改善了选择R-cnn、Faste R-cnn候选框架带来的时间问题。 R-CNN和检测网络共享全图的卷积特征,缩短了区域方案的时间。 首先扫描整个特征图的像素点,然后围绕每个像素点生成九个anchor。 这9个anchor是超级参数,我们自己固定。 一般设置为三个不同的比例和三个不同大小的参数。 每个像素点得到的框,根据特征对他们进行分类,主要采用二分类,判断是前景还是背景,去掉背景框,剩下的都是包含检测物体特征的框。 再次过滤剩下的复选框。

现在开始区分和训练过程:

培训有目标地面路线,您可以根据此框与我们现有的anchor进行筛选。 首先删除框本身重叠度高的,得到剔除效果。 另外,还有表示anchor-box和ground-truth-box重复度的IOU参数。 如果IOu大于我们设定的超级参数(通常为0.7 ),则保留下来,保证选择正确的框。 还有一个小IOU的(一般是0.3 )也剩下。 这样,为了保证分类训练样本输入的局部特征,可以保证是能够识别缺损部分图像的信息。

接下来有两个分支。

1、用softmax分类,求出每个框架的得分和类别。 然后求回归,训练网络卷积和全连接层权重。

2、将边框移动到ground-true box,学习边框的回归参数,微调边框。 所获得的训练参数可以基于输入特征(对应于中心点的纵横比的卷积特征)和所学习的权重矩阵来精细地调整纵横比。

检查的时候,我们没有真正的框架,是我们选择候选框架的时候了。 寻找识别度最高的盒子,根除微调参数进行校准,可以获得较好的效果。

线性回归是给定输入的特征向量x,以学习一组参数w,使得线性回归后的值非常接近真实值y (接地轨迹)。 也就是说。 那么我们在Bounding-box上的输入和输出分别是什么呢?

输入:

这是什么? 要输入这四个数值吗? 其实真正的输入是与这个窗口相对应的CNN的特征,也就是R-CNN中的Pool5feature (特征向量)。 (注意:培训阶段的输入还包括接地路径,即:

输出:

所需的平移变换和缩放比例调整,或是的。 我们的最终输出不是Ground Truth吗? 是的。 但是,有了这四个变换,我们就可以直接得到接地路由。 这里还有一个问题。 从上面的四个表达式可以看出,经过p后,可以得到预测值,而不是真正的值g。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。