首页 > 编程知识 正文

计量检测(腾讯云ocr文字识别)

时间:2023-05-05 14:18:43 阅读:77609 作者:1707

过去几年,腾讯数平精确推荐(Tencent-DPPR )团队一直致力于实时精确推荐、海量大数据分析和挖掘等领域的技术研发和落地。 特别是在广告推荐领域,团队自主研究的深度在线点击率估计算法和全过程实时推荐系统,多年来在该领域持续取得显著成绩。 在用户意图和广告理解方面,通过广告图像中的文本识别和物体识别等技术手段,可以更有效地加深对广告创意、用户偏好等的理解,为广告推荐业务提供更好的服务。

ocr (光学字符识别)是对输入图像进行解析识别处理,取得图像中字符信息的过程,通过场景图像字符识别、文档图像识别、卡认证识别(例如身份证、银行卡、社会保险卡场景文字识别(Scene Text Recognition,STR )无需针对特殊场景进行定制,即可识别任意场景图像中的文字(图1 )。 与传统的OCR相比,场景图像中文本的检测与识别面临着复杂的背景干扰、字符模糊与退化、不可预测的光照、字体多样性、垂直文本、倾斜文本等诸多挑战。

图1场景图像示例

场景的文字识别这一问题从15~20年前就开始进行相关的研究[1-3]。 与传统OCR的重要区别在于需要识别照片和视频中的文字,主要分为两个步骤。

找到单词或文本行(Word/Line-level )中的边界框(Bounding Box ) (文本检测); 识别定位字符(文本记录)。 这两个步骤的组合提供了字符端到端识别(End-to-end Recognition )结果。 通常,实现场景文字的检测是首要的,也是最重要的任务。

数平精确推荐团队在OCR领域深耕多年,基于自研深度学习方法的文本检测和识别技术多次在ICDAR竞赛数据集上刷新世界纪录,特别是在2017年举办的第14届ICDAR官方竞赛中,“coco-texdar 获得“医学文献影像”等挑战任务四项冠军,得到业界广泛好评,同时再次证明的本文主要介绍数平精确推荐团队的文本检测技术。

数平精确推荐团队场景文本检测技术

1、文本检测技术

文本检测是场景文本识别的前提条件,需要解决的问题是在杂乱无序的复杂场景中准确定位字符位置。 由于背景复杂性、光照多变性、字体不可预测性等原因,场景文本检测面临着巨大的挑战。 场景文本检测的发展过程与大多数计算机视觉任务相似,传统的检测方法包括基于连通域的方法[4][5]和基于滑动窗口的方法[6-8],从2014年开始,基于深度学习的方法

(1)基于连通域的方法

这种方法被认为场景图像中的字符一般会出现为连通域,这种方法一般分为连通域提取和字符连通域判别两个环节。 其中,在连接区域提取中将图像中的所有连接区域作为候选提取,在文字连接区域判别中,根据分类器和启发式规则判断提取出的连接区域是文字连接区域还是背景连接区域。

图2是基于连通域的文本检测方法的流程图

)2)基于滑动窗口的方法

使用场景字符作为特殊目标,使用与目标检测类似的方法定位场景字符。 首先需要从每个滑动窗口中提取一些特征,然后将提取的特征发送到预训练的分类器,判断当前滑动窗口是否包含字符,最后通过二值化准确定位场景文本。

图3是基于滑动窗口的文本检测方法的流程图

)3)深度学习方法

近年来,由于其强大的学习能力和广泛的适用性,深度学习已成为人工智能领域最受欢迎的方向之一。 基于连接域和窗口方法的方法在传统的OCR任务中取得了良好的效果,但在更复杂的场景图像文本检测任务中完全落后于深度学习方法。 基于深度学习的文本检测方法利用更鲁棒的高层语义特征,用更多的数据拟合更复杂泛化能力更强的模型,在场景图像文本检测方面取得了突破性的进展。 在基于深度学习的文本检测方法中,最广泛使用的是基于区域专业的方法[9-12],其次是基于图像分割的方法[13-16]、其他方法[17]等。

2、推荐几平精确文本检测技术

(1)基于旋转- rpn的文本检测方法

在文本检测领域中,基于深度卷积神经网络的算法成为主流,例如

回归的YOLO[18]、SSD[19]和基于RegionProposal两阶段的Faster RCNN[20]、R-FCN[21]等。在基于深度卷积网络的物体检测框架中,每一层卷积相当于一层滤波器,多层滤波器的串联可以使最有效的特征被传递到最后,再根据文字目标与物体目标的差异,针对性地改进检测任务的实现机制,能够获得良好的文本检测效果[9-12]。

目前,基于回归的算法在物体检测任务中并没有取得明显优于Faster-RCNN的检测效果,主要原因在于两阶段的算法存在class-balancing。经典的Faster RCNN框架是针对通用物体检测而设计的,但在文本检测这一比较特殊的应用中,则有较多不太一样的地方。例如,Faster RCNN中Anchor的设置并不适合文本检测任务,而是针对物体检测任务来设计的,需要调节;另外,Anchor为正矩形,而文字存在倾斜畸变等,如果用正矩形检测,得到的文本检测结果无法满足后续对文字进行识别的要求。

结合场景图片中文字排列具有不规则、多方向(水平、倾斜、垂直等)、尺寸大小不一等特性,数平精准推荐团队受到RRPN[11] Rotation Proposals的启发,基于Faster-RCNN物体检测模型,研发了一种用于任意方向文本的端到端文本检测方法,技术架构图如图4所示。

图4 基于Rotation-RPN的场景文本检测模型架构图

我们从整体上自动处理文本行/文本边界框,自研的基于Rotation-RPN的文本检测方法主要包括三部分:基础卷积网络、Rotation-RPN网络、Rotation-ROI-Pooling,其中几个关键点如下:

场景图像中并非所有文字都是水平的,存在着大量其他排列分布的场景文本,如倾斜文本、垂直文本。我们在物体检测技术架构的基础上,将角度信息融入到检测框架中,目的在于回归任意方向的文本框。实验证明,Rotation-RPN具备检测自然场景下任意方向文本的能力,尤其能够检测出具有语义信息的倾斜文本和垂直文本;尺度问题一直都是深度物体检测方法的核心问题之一,针对检测模型对文字大小较敏感的问题,我们设定了不同尺寸的Proposal,融合不同尺度卷积特征并进行多尺度的池化过程,用于检测不同尺度的文本;为了实现对任意方向的文本进行自动处理,我们设计了旋转感兴趣区域(RRoI)池化层,RRoI池化层能够将任意方向、任意宽高比或尺寸的候选旋框投影到固定大小的特征图,解决了传统RoI池化层只能处理轴对齐候选框的问题;传统的非极大值抑制(NMS,Non Maximum Suppression)算法只能处理轴对齐的候选框,为了解决任意旋转方向重叠文本候选框的NMS问题,我们设计了面向旋转候选框的非极大值抑制(Inclined-NMS,Inclined Non Maximum Suppression)算法,Inclined-NMS算法考虑了倾斜候选框的特性进行择优选取。

基于Rotation-RPN的场景文本检测方法是一种用于任意方向文本的端到端文本检测方法,能够有效解决文字尺度不一、形态各异,和检测器对尺度过于敏感等问题,大幅提高了检测环节的精度。

(2)基于联结文本建议网络的文本检测方法

一般物体检测中只有一个独立的目标(如人、猫、狗等),与一般物体检测不同的是,文本是一个Sequence(字符、字符的一部分、多字符组成的一个Sequence)。基于CTPN方法[10]的基本思想,通过在卷积网络的特征图上提取Anchors,并计算每个Anchor的得分,并在计算得分的过程中,综合利用上下文信息、每行的文本序列特性,采用RNN进行建模以判断文字的得分。

图5 基于联结文本建议网络的文本检测模型架构图

传统Bottom-up的检测方法没有考虑上下文,鲁棒性较差,复杂繁琐,使得文本检测性能难以突破瓶颈。我们通过Top-down的方式,即先检测文本区域,再找出文本行,获得了相比传统检测方法更好的结果。

实验证明,通过CNN提取深度特征,并结合RNN进行序列学习,能够大幅提高检测精度,尤其对于长文本(水平及具有一定倾斜角度的长文本)的检测。

(3)基于全卷积网络的文本检测方法

图6 基于FCN的文本检测流程图

基于全卷积网络(Fully Convolutional Network,FCN)的方法[15]同时使用分割(Segmentation)和边界框回归(Bounding Box Regression)的方式对场景文字进行检测,直接产生单词或文本行级别的预测(旋转矩形或任意四边形),通过非极大值抑制产生最终结果。

图7 基于FCN的文本检测网络结构图

我们设计了基于FCN的文本检测方法,文本检测网络(如图7所示)产生两种输出:Score Map和文本边界框的回归结果(回归目标为矩形时是5自由度的坐标和角度、回归任意四边形时是8自由度的坐标)。其中,分数图的像素值在[0,1],代表了在同样的位置预测的几何尺寸的置信度,分数超过预定义阈值的几何形状被认为是有效的结果预测,最后通过非极大值抵制产生最终文本检测结果。

3、部分场景图片文本检测效果图

腾讯数平精准推荐团队自研的OCR技术目前已经广泛服务于公司内部的多个业务。在各类场景中,例如广告素材、游戏图片、敏感广告等,都有良好的效果,部分文本检测效果如图8所示。

(1)广告图片

(2)自然场景图片

(3)游戏图片

(4)银行卡图片(部分内白为保护隐私)

图8 场景图片&垂直应用图片文字检测示例

目前数平精准推荐团队研发的OCR相关技术在公司内部众多产品中得到使用,例如:腾讯慧眼、手Q看点、话题圈、天御、社交广告等业务,尤其在广告推荐的场景中,通过OCR技术对广告的素材创意进一步的识别和理解,大幅提升了用户点击率预估的效果。

腾讯数平精准推荐团队一直致力于实时精准推荐、海量大数据分析及挖掘等领域的技术研发与落地。在OCR方面,我们已经有了多年积累下的各项技术积累,愿意与任何有OCR技术相关需求的业务同行进行交流合作,持续打造业界一流的数据、算法和系统。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。