本文为公众号“每天醒来”
在深度学习的许多工作(例如目标检测、图像分割)中,融合不同尺度的特征是提高性能的重要手段。
低层特征分辨率更高,包含更多的位置、细节信息,但由于卷积更少,其语义性更低,噪声更多。
高层特征具有更强的语义信息,但分辨率低,对细节的感知能力差。
如何有效融合两者,发挥优势,摒弃无谓的住宿,是改善分割模式的关键。
图像金字塔(Featurized image pyramid ) )
传统方法通过对图像进行下采样处理,提取各层图像的特征,并在各层进行预测。
通过图像金字塔构建不同尺度的特征金字塔会带来非常大的计算量。
使用图像金字塔构建特征金字塔。 每个大小不同比例的图像都独立计算特征,每次计算特征时都需要调整图像大小,这需要时间和速度。
好处:
对各尺度图像进行特征提取,可以生成多尺度特征表示,所有类别的特征图都具有较强的语义信息,还包括一些高分辨率的特征图。
缺点:
推理时间大幅增加
由于存储器占有量巨大,以图像金字塔的形式训练端到端的深度神经网络是不可能的
如果仅在测试阶段使用金字塔图像,则在训练时网络只针对ajdgz的特征分辨率进行训练,因此在推理时使用金字塔图像可能会在训练和推理时产生“矛盾”。
单个高级特征图使用单个高级特征图进行预测。
该金字塔网络是一种高级卷积神经网络,对不同大小的图像进行垂直目标检测,难以同时处理多个大小的目标。
利用卷积网络,根据单特征图进行预测。
例如,Faster R-CNN中的RPN层使用单个高层特征图进行物体分类和边界盒回归。
金字塔特征级(Pyramidal feature hierarchy )
重用卷积计算的金字塔特征层次进行目标位置预测,但缺乏底层的特征映射特征表达能力。
根据不同尺度的特征图分别进行预测,更好地处理目标多尺度问题。
例如,SSD one-stage目标检测模型是重用不同层的多尺度特征图。
但是,固态硬盘没有解决以下问题。
低层特征图的语义信息不足,低层特征图的分辨率也不高。
安静的硬币对feature map的意义信息很少,框中出现了小物体,但小物体容易被错误地分开。
特征金字塔卷积神经网络从浅到深,语义信息丰富,但特征图越来越小,分辨率越来越低。 解决方案是通过连接浅层和高层特征图,将浅层信息传递到深层,解决深层特征图容易忽略小目标的问题。
为了解决以上三种结构的缺点,提出了即使每层不同尺度的特征图具有较强的语义信息,也要FPN。
这种网络结构可以在减少计算量的基础上,将低分辨率语义信息强的特征图与高分辨率语义信息弱但空间信息丰富的特征图相融合。
FPN的独特之处在于以特征金字塔为基础结构,按层次分别预测特征图。
FPN通过对深层信息进行采样,将浅层信息与元素逐个相加,构建了不同大小的特征金字塔结构,性能优越,目前已成为目标检测算法的标准组件。
上采样
在自上而下的过程中,用上采样绘制顶级的小特征。
放大到与上一个舞台的特征图相同的大小。
上采样的方法是最近邻插值法。
利用最近邻插值法,在上采样过程中可以最大限度地保留特征图的语义信息(有利于分类),在bottom-up过程中与相应的具有丰富空间信息的特征图融合,得到具有良好空间信息和较强语义信息的特征图。
1 )底部上行路径
原生态金字塔是所有ConvNet都具有的特点,不需要多说。 在这里,作者选择了各Stage的最后一层作为特征层。 这里的Stage是指大小发生变化时的情况。
2 )下装配件
与特征图上采样相对应,一种思路是在上采样中提取更长的语义信息,同时上采样可能带来的一些信息丢失。
3 )局域网连接
横向链接是将原始特征信息集成到右侧的采样特征层中,原始特征表示准确的位置信息。
通过组合Top-Down (更强的语义信息)和侧方连接(准确的Loc ),兼顾了基础特征和抽象的语义,连接方式可以记述如下
顶部-底部以2倍的上采样连接,侧方连接通过
1x1 的卷积进行连接,通过 Add 操作进行 Merge。
yolo v3中的特征金字塔
在特征利用部分,yolo3提取多特征层进行目标检测,一共提取三个特征层,三个特征层位于主干部分darknet53的不同位置,分别位于中间层,中下层,底层,三个特征层的shape分别为(52,52,256)、(26,26,512)、(13,13,1024)。
三个特征层进行5次卷积处理,处理完后一部分用于输出该特征层对应的预测结果,一部分用于进行反卷积UmSampling2d后与其它特征层进行结合。
输出层的shape分别为(13,13,75),(26,26,75),(52,52,75),最后一个维度为75是因为该图是基于voc数据集的,它的类为20种,yolo3只有针对每一个特征层存在3个先验框,所以最后维度为3x25。
如果使用的是coco训练集,类则为80种,最后的维度应该为255 = 3x85,三个特征层的shape为(13,13,255),(26,26,255),(52,52,255)。
总结
特征金字塔是对用卷积神经网络进行目标检测方法的一种改进,通过提取多尺度的特征信息进行融合,进而提高目标检测的精度,特别是在小物体检测上的精度。
FPN是ResNet或DenseNet等通用特征提取网络的附加组件,可以和经典网络组合提升原网络效果。
——————
浅谈则止,细致入微AI大道理
扫描下方“每日一醒”,选择“关注”公众号
—————————————————————
—————————————————————
投稿吧 | 留言吧