dijkstra算法步骤例题表格,胡凡算法笔记

论文： sniper :高效多尺度培训

论文链接： https://arxiv.org/abs/1805.09300

代码链接： https://github.com/mahyarnajibi/sniper

这篇文章是之前SNIP论文的升级，升级点在于减少SNIP的计算量SNIP借鉴了多尺度训练的思想进行训练。多尺度训练使用图像金字塔作为模型的输入。这种做法可以提高模型的效果，但计算量的增加也非常明显。这是因为模型需要处理各scale图像的各像素。 sniper (scalenormalizationforimagepyramidswithefficientresampling )算法通过引入上下文(context-regions )，从完整的图像中用chips表示该术语也在图像中)，以帮助模型选择最有助于检测的区域参与训练，而不是处理每个大小图像的每个像素点，从而大大减少计算量。这些chips主要分为两个类别，一个是postivice chips，这些chips包含接地路由；另一种是对RPN网络输出的ROI进行采样得到的negative chips，这些chips相当于难以分类的背景，容易分类的背景不需要进行多尺度训练。因此，模型最终只处理这些chips，而不是处理整个图像，从而在达到提高效果的同时提高速度。 (单卡V100每秒钟可处理5张图像，但该速度实际上并不是很快。虽然只是根据多尺度图像进行训练，但是效果真的很好。 )。

因此，本文的中心内容是如何选择定位芯片和否定芯片。

假设有positive chip选择的思想是希望一个chip中尽可能包含合适尺度的ground truth boxn个scale。这n个scale以{s1、s2、…、si、…sn}表示，Ci表示每个图像为比例I时得到的chip的集合。另外，positive chip集合用Cipos表示，negative chip集合用Cineg表示。假设区域范围Ri=[Rimin，Rimax]，其中I的范围为[1，n]，表示比例，ri表示针对尺度I选择了哪个大小范围的地面传输盒，ri的范围内的grrip 每个chip希望包含尽可能多的ground truth boxe，而且只有当一个ground truth box完全在一个chip中时，才表明该chip包含该ground truth box。这样得到的尺度I的positive chip集合是Cipos。最终，每个地面轨迹盒都可以以适当的比例存在于chip中，从而大大减少了模型对背景区域的处理。

Figure1是关于SNIPER的positive chip选择过程左图的绿色实线框表示ground truth，各色虚线框(共4个)表示SNIPER算法基于原图生成的chips，这些chips中包含所有ground ttruth 右图是这4个chips的具体内容，绿色实线框表示对该chip有效的ground truth，红色实线框表示对该chip无效的ground truth。由于不同scale图像的Ri范围重叠，因此一个接地轨迹盒可能位于属于不同scale的多个chip中。例如，在Figure1中，即使电视机出现在finest scale上，它也出现在粗略ST scale上。而且，同一ground truth box在同一scale中也可能属于多个chip。

如果只基于前面的positive chip，那么因为大量的背景区域没有参与训练，所以容易误检（比较高的false positive rate），传统的multi scale训练方式因为有大量的背景区域参与计算，所以误检率没那么高，但因为大部分背景区域都是非常容易分类的，所以这部分计算量是可以避免的，于是就有了negative chip seleciton其次，问题在于如何确定哪些背景更容易分类，哪些背景更难分类。作者采用了一种比较简单的基于RPN网络的输出，即region proposal (也称为ROI )构建negative chip的方法。 Faster RCNN系列算法的RPN网络用于生成region proposal，该region proposal表示对象最可能存在的区域，因为RPN网络是通过RPN网络的粗略筛选获得的区域proposal 如果某个背景区域没有region proposal，则该背景区域非常容易成功地分类，这些区域不需要参加训练，实际参加训练的negative proposal是容易误判的proposal，false posision 这就是本文关于如何选择negative chip的想法。

第Figure2是关于SNIPER的negative chip选择过程，第一行是输入图像和ground truth信息2行图像中的红色圆圈表示不属于定位芯片(ci pos )的否定专业版。因为proposals很多，用框画的话很复杂，所以用红色的圆圈表示。橙色框表示基于这些negative proposals生成的negative chips，即Cineg。每个negative chip就是这样得到的。对于比例I，首先删除Cipos中的注册专业版，然后在Ri范围内每个chip至少选择m个专业版。在训练模型时，每个图像的每个epoch处理固定数量的否定剪辑，这些固定数量的否定剪辑是从所有比例的否定剪辑中采样的。

实验结果：

Table2是关于有无negative chip和scale数对实验结果的影响。 AP值的计算与错误检测相关，negative chip未参加训练时容易发生错误检测，因此AP值相对较低(表中第1行和第3行的比较)。文中实验中默认的scale数为3，为了测试scale数对结果的影响，作者去除了最大大小的scale，留下另外两个scale进行训练，结果表明AP下降明显(表1行和第2行对)

Table3是关于SNIPER算法和其他算法的对比，除了最后两行是实例分割的结果以外，其他都是检测结果的对比。