首页 > 编程知识 正文

信息及相关概念教学设计,实数的相关概念与运算

时间:2023-05-03 08:45:06 阅读:244482 作者:505

Pixel-Anchor原文:添加链接描述
引用:添加链接描述
数据集:添加链接描述
对于数据增强,统一从图片中裁剪640*640的样本来形成大小为32的mini-batch。在ImageNet数据集训练的模型作为预训练模型。SynthText数据集包括800k合成的文本图像,用来预训练模型,然后在每个基准数据集继续训练对应的图像。对于每个数据集,在第一阶段训练时,初始lr设置为0.0001,然后在第二阶段训练减到0.00001。
首先用公共数据集SynthText和自己的数据集来得到模型的特征,然后在两个具有挑战性的公共基准来评估:ICDAR 2015 和ICDAR 2017 MLT。
Pixel-based:
1、FPN: 特征金字塔网络
2、ASPP: 空洞空间金字塔pooling
Anchor-based:
1、SSD: 添加链接描述
2、APL: 自适应预测层

该层分别为不同的卷积核搭配不同的宽高比锚,以适应不同尺度、不同角度的文本。主要分为以下5类:
a)、正方形anchors:宽高比=1:1,卷积滤波器大小为3x3,主要为了检测方正规整的文字;
b)、中等水平anchors:宽高比={1:2,1:3,1:5,1:7},卷积滤波器大小为3x5,主要为了检测水平倾斜的文字;
c)、中等垂直anchors:宽高比={2:1,3:1,5:1,7:1},卷积滤波器大小为5x3,主要为了检测垂直倾斜的文字;
d)、长的水平anchors:宽高比={1:15,1:25,1:35},卷积滤波器大小为1xn,主要为了检测水平长行的文字;
e)、长的垂直anchors:宽高比={15:1,25:1,35:1},卷积滤波器大小为nx1,主要为了检测竖排长行的文字。
3、Textboxes++ :添加链接描述
4、The Anchor Matching Dilemma:

Pixel-Anchor 框架:
从ResNet-50主干网络中提取1/4、1/8、和1/16的特征图,在pixel-based模块和anchor-based模块共享。在pixel-based模块的分割热力图,根据anchor级别的注意力机制提供给anchor-based模块。在inference阶段,没有复杂的后处理,除了包括一个有效的融合NMS。
pixel-based模块:
FPN和ASPP操作组合在一起作为编码-解码结构,同时修改了ASPP的膨胀率,用{3, 6, 9, 12, 15, 18}替换了DeepLabv3+中的{6, 12, 18}来获得更好的感受野。在解码阶段,编码特征首先用因子为2倍双线性插值进行上采样,然后和来自网络主干的相应低一级的特征拼接concat。解码特征图同时保留了高的空间分辨率以及语义信息。

分类Loss:
设负正样本的比例为3:1, Ωa表示用于分类训练的anchor集合(负样本和正样本):

这里| • |是在这个集合中正样本的数量,H(pi, pi*)表示第i个anchor标签预测值pi和它的gt标签值pi之间的交叉熵。
anchors的预测文本四边形坐标偏移量的回归loss如公式:

这里pos(Ωa) 是Ωa的正样本部分, SL(li, li)表示对于第i个anchor,预测偏移坐标li和ground truth li*之间的smooth L1 loss。
对于anchor-based模块,loss可以表示为:

αa是平衡分类loss和定位loss的权值,在实验中为了快速收敛设为了0.2。

训练阶段:
整个网络是用adam优化器来端对端训练的,模型的loss可以表示为:


αall是平衡pixel-based loss和anchor-based loss的权值,在实验中设为3。

推理阶段:
提出融合NMS来获得最终的检测结果,用anchor-based模块检测小文本和长文本,用pixel-based模块检测中等大小的文本。
在anchor-based模块的APL中,对anchors进行修剪。1/4特征图上的所有anchors和在其他特征图上的所有长anchors都被保留下来。因为在1/4特征图上的anchors(一般都是小尺寸的)通常没有足够的空间来包含两个大角度的文本实例,同时长的anchors仅仅可以匹配小角度的文本实例,这样“Anchor Matching Dilemma”就会更少发生。

检测小场景文本的能力:
在SynthText 数据集上进行实验,图片的分辨率都被resize到384384,保留贪玩的河马比,pad短边,随机选择4k张图作为验证集。
检测密集大角度文本的能力:
对比了Pixel-Anchor和anchor-based方法在检测密集大角度文本上的性能。
检测长文本行的能力:
为了说明提出的APL可以有效的检测长文本行,用海报数据集测试了Pixel-Anchor,该数据集包括大量长的横跨图片的中文文本行。收集标定了5000张图,选择4000张作为训练集,1000张作为验证集。在海报数据集中,对于768768分辨率的图片,获得0.88的F-measure。

ASPP: 是一种增加感受野的方法

空洞卷积多了一个称之为 dilation rate 的参数,指的是kernel的间隔数量(一般的卷积 dilation rate=1),采样率(dilation rate)并不是越大越好,因为采样率太大,会导致滤波器有的会跑到padding上,产生无意义的权重,因此要选择合适的采样率
实现空洞卷积:
第一个是通过插入空洞(零)来隐含地对滤波器进行上采样,或等效稀疏地对输入特征图进行采样。通过向im2col函数(从多通道特征图中提取矢量化块)添加稀疏采样底层特征图实现了这一点。
第二种方法,用一个等于空洞卷积率 r 等效的因子对输入特征图下采样,对于每一个r×r的移位,都对其进行去交织以产生 r^2 大小的的分辨率映射。然后将标准卷积应用于这些中间特征图,并隔行扫描生成原始图像分辨率。通过将多孔卷积变换为常规卷积,可以使用现成的高度优化的卷积方法,已经在TensorFlow框架中实现了第二种方法。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。