首页 > 编程知识 正文

丑图片男生,丑图片女生搞笑

时间:2023-05-03 05:53:57 阅读:159091 作者:4192

文本检测的难点之一是文本行的长度变化非常剧烈。 因此,如果采用基于faster rcnn等通用物体检测框架的算法,将面临如何生成较好的文本属性的问题。 论文detectingtextinnaturalimagewithconnectionisttextproposalnetwork检测出一个个小的、一定宽度的文本段,并在后处理部分将这些小文本段连接起来检测到的文本段的图像如下图所示。

具体来说,作者的基本思想是预测文本的垂直方向的位置,而不预测水平方向的位置。 因此作者提出了vertical anchor的方法。 与faster rcnn的anchor类似,但vertical anchor的宽度是固定的,论文大小为16像素。 高度从11像素变化到273像素,共有10个anchor。 另外,关于水平文本行,由于各自的文本段之间存在关联,作者采用CNN RNN的网络结构,检测结果更鲁棒。

问题分析1、文字目标的特殊性,一大先验是文字总是水平排列。 文本检测和通用目标检测不同的——文本线是一个sequence (一个多字符序列),通用目标检测不是只有一个独立的目标。 这既是优势,也是难点。 优势可以体现在同一文本行上的不同字符可以相互利用上下文,并且可以用sequence方法,例如RNN表示。 难点是检测完整的文本线。 由于同一文本线上字符差异较大,可能存在距离较远的问题,整体检测比单一目标更难达到——,因此作者将文本的垂直位置(文本bounding box的上下边界为水平位置)与文本bounding box的左右边界相比

2、文字特征体现在edge上。

3、自然场景文字检测的难点在于小目标、遮挡、仿射失真。

pipeline的整个算法流程主要有以下步骤:

(1)首先,使用VGG16作为base net提取特征,将conv5_3的特征作为feature map,大小为WHC

)2)然后,在这个feature map上制作滑动窗。 窗户的大小是3乘3。 也就是说,针对每个窗口获得长度为33C的特征向量。 此特征向量用于预测与10个anchor的偏移距离。 也就是说,在每个窗口的中心预计有10个text propsoal。

)3)将在前面步骤中获得的特征输入到双向LSTM中,得到长度为W256的输出,然后连接到512的所有连接层,准备输出。

)4)输出层部分主要有三个输出。 2k个vertical coordinate的一个anchor用中心位置的高度(y坐标)和矩形框的高度两个值表示,所以一个以2k个输出。 (请注意,此处输出的是相对于anchor的偏移。 2k个score预测了k个文本属性,因此有2k个分数,text和non-text分别有一个分数。 k个side-refinement,该部分主要用于修改文本正文的两个端点,显示了每个proposal的水平移动量。

)5)该方法可以得到密集预测的text proposal,利用标准的非极大值抑制算法去除多余的box。

(6)最后利用基于图的文本行构造算法,将得到的每一个文本段合并成成文行。

CPTN是一种顶级向下方法(检测文本区域,然后找到文本线)的文本检测方法,它优于bottom-up检测方法(检测字符,然后连接到文本线)。 因为CPTN考虑到上下文,更鲁棒。

方法检测不到非水平字符。

CPTN的最大亮点是将RNN引入检测问题。 文本检测器首先通过CNN获得深度特征,然后通过固定宽度anchor来检测文本属性(部分文本线),排列与同一行anchor相应的特征并输入RNN,最后通过全级联层分类或回归来提取正确的text 这种将RNN和CNN无缝结合的方法提高了检测精度。

特征)1)最终输出不是字符级别,而是行级别

)对于每行,对于每个feature-map位置,要回归的框的宽度需要固定为16个像素,并且预测k个anchor的高度和垂直方向;

)3) side-refinement用于预测每个anchor的x坐标,有效地提高了精度。

与faster-rcnn的差异1、RPN的改善、anchor的窗口宽度固定为3。

2、在rpn之后不直接连接所有连接分类/回归,而是通过另一个LSTM,然后连接所有连接层。

3、坐标返回到一个y,而不是x1、y1、x2、y2。

4、添加side-refinement并注册水平位置。

如上所述,准备训练数据是因为该网络预测了固定宽度的text proposal,所以应该这样标注真实值。 但是,一般的数据库给出的是整个文本行或者单词级别的标注。 因此,需要将这些表示法转换为一系列固定宽度的box。

参考:

[1] http://Slade-Ruan.me/2017/10/22/text-detection-ctpn /

[2] https://砖局域网. zhi Hu.com/p/31915483

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。