首页 > 编程知识 正文

识别文字的软件(提取关键信息的方法)

时间:2023-05-03 07:06:50 阅读:65859 作者:1007

正文分享自华为云社区《技术综述十:文字识别之关键信息提取》,原文作者:私人chg。

深度学习模型在OCR领域取得了巨大的成功,包括文本检测和文本识别任务。 另外,如图1所示,从文档中提取重要信息作为OCR的下游任务存在非常多的实用场景。 人工从这些文档中提取信息既重复又耗时。 使用深度学习模型自动从文档图像中提取重要信息是一个亟待解决的问题,受到学术界和工业界的广泛关注。 这里简要介绍了最近的几篇相关文章,分为三类:基于栅格(grid-based )、基于图形(graph-based )和端到端(end-to-end )。

(a )火车票

(b )购物小票

图1从文档图像中提取重要信息

1 .基于网格的文档图像关键信息提取技术这种方法基于图像的像素点将图像转换为网格表示向量,并输入深度学习网络以学习关键信息的提取。

1.1 Chargrid[1]这篇文章指出,文档中文本之间的关系不仅关系到文本的顺序,还关系到文档中各文本的布局分布。 为了解决上述问题,作者如图2所示,提出了一种将文档图像映射到字符级二维网格显示的chargrid方法。 每个字符网格由one-hot代码表示,并且整个图像的向量由 tilde { g }inmath bb { r } ^ { hwn _ { c } } g (RHwNC )表示。 其中,HH和WW是图像的长度和宽度,n

图2 chargrid文档视图

之后,该向量表示作为chargrid-net的输入,如图3所示,基于编码器-解码器的CNN网络结构进行重要信息的文本框检测和语义分割。 整个网络由分割损失、边框分类和边框坐标回归三部分组成的损失函数优化学习: {math cal { l } } _ { total }={math cal { l } } _ { seg } {math cal }

图3 char网格模型体系结构

1.2 CUTIE[2]本文还指出,仅靠NLP技术无法处理文档中各文本之间的布局信息。 为此,作者设计了CUTIE方法,将文档图像映射到保持各文本空间位置关系的网格向量表示上,然后设计两种CNN模型进行关键信息问题: CUTIE-A,以高分辨率网络HRNet为主干网,如图4所示CUTIE-B,采用空腔卷积的CNN网络。 整个模型通过每个box的预测类和实际类之间的交叉熵损失进行优化学习。

图4 CUTIE模型体系结构

2 .基于图结构的文档图像关键信息提取技术基于图结构的方法将文档图像看作由文本切片(text segment )组成的图结构,利用神经网络模型学习各文本切片之间的关系提取文档的关键信息内容。

2.1 GC-BiLSTM-CRF[3]这篇文章指出,传统的NER格式BiLSTM-CRF不提供文档图像中每个文本切片之间的布局信息。 为了解决上述问题,作者提出利用图卷积神经网络学习文本切片的语义信息和布局信息。

图5图卷积神经网络学习文本切片的图向量表示

具体来说,通过将文本切片看作点,将文本之间的关系看作边,构建全连接图表结构。 图5显示的是使用图卷积神经网络学习得到的各文本切片的图矢量表示。

图6引入图向量表示的BiLSTM-CRF

得到文本切片的图矢量表示后,与文本切片中各文本token的Word2Vec矢量连接,输入BiLSTM-CRF网络进行文档图像的重要信息提取。 整个模型由文本切片分类任务和IOB序列分类任务共同优化学习。

2.2 LayoutLM[4]文章指出,预训练模型在NLP领域取得了巨大的成功,但布局和布局信息的利用不足,不适合文档图像的重要信息提取任务。 为了解决上述问题,作者提出了LayoutLM模型。

图7布局lm模型体系结构

该模型以Bert (在NLP领域非常强大的预训练模型)为主干网络,为了利用布局和布局信息,各文本切片的两点标记(左上的横纵轴和右下的横纵轴)分别为横纵两个方向的索引也可以选择性地添加切片的视觉向量表示,以补充更多信息。 由于BERT本质上可以被视为完全连接的图形网络,因此LayoutLM也将其归类为基于图形结构的技术。 之后出现了LayoutLM这样的训练前模型,如狂野茉莉[5]等,在文档图像的重要信息提取任务中获得了SOTA结构,证明了深度学习模型基于大词汇量和大模型的强大能力。

3 .端到端的文档图像密钥信息提取技术端到端的方法,顾名思义,是直接输入原始图像来获得文档的密钥信息内容。

3.1 EATEN[6]文章指出,基于检测识别过程的信息提取技术受到轻微错位等影响。 为了解决上述问题,作者提出了一种从原始图像输入中直接提取句子的EATEN方法

档关键信息内容。

图8 EATEN模型架构

具体地,如图8的网络结构所示,EATAN采用CNN骨干网络来提取得到文档图片的高层视觉信息,然后利用实体类别感知的注意力网络来学习实体布局信息,最后利用基于LSTM的解码器解码得到预设的实体内容。该模型由于直接从图片中得到文档关键信息,易于加速优化,便于边缘部署。

3.2 TRIE[7]

这篇文章指出,现有方法对关键信息提取都是将其作为多个独立的任务进行,即文字检测、文字识别和信息提取,彼此之间无法进行相互监督学习,因此作者提出一个端到端的网络模型TRIE,同时对上述三个任务进行模型学习。

图9 TRIE模型架构

具体地,利用ResNet+FPN作为骨干网络,进行文字检测,然后利用检测网络+ROIAlign的结果进行attention+encoder-decoder的文字识别,最后将文本位置信息、视觉信息、语义信息进行融合,通过BiLSTM来进行IOB标签分类得到文档关键信息。整个TRIE模型对三个任务(即文本检测、文本识别和信息提取)进行共同优化学习:

小结:

本文对OCR领域中文档图片的关键信息提取技术进行了简要介绍,将近期技术按模型分为基于栅格、基于图和端到端三种类别,对每个类别筛选了两篇论文进行了阐述。总的来说,基于大语料的预训练图模型展现出了巨大的实力,而端到端模型也存在不小的潜力。

参考文献:

[1] Katti, Anoop R., et al. “Chargrid: Towards Understanding 2D Documents.” EMNLP, 2018.
[2] Zhao, Xiaohui, et al. “Cutie: Learning to understand documents with convolutional universal text information extractor.” arXiv, 2019
[3] Liu, Xiaojing, et al. “Graph Convolution for Multimodal Information Extraction from Visually Rich Documents.” NAACL, 2019.
[4] Xu, Yiheng, et al. “Layoutlm: Pre-training of text and layout for document image understanding.” KDD, 2020.
[5] Garncarek, 儒雅的柠檬, et al. “LAMBERT: Layout-Aware language Modeling using BERT for information extraction.” arXiv, 2020
[6] Guo, He, et al. “Eaten: Entity-aware attention for single shot visual text extraction.” ICDAR, 2019.
[7] Zhang, Peng, et al. “TRIE: End-to-End Text Reading and Information Extraction for Document Understanding.” ACM MM, 2020.

 

点击关注,第一时间了解华为云新鲜技术~

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。