纸质档案数字复制件光学字符识别（ocr文档识别和表格识别的难点）- 恩蓝号

大家好，今天兑观科技小编又为大家分享档案管理干货了，本篇分享主要内容为——纸质档案数字复制件光学字符识别(OCR)工作规范篇三。

纸质档案数字复制件光学字符识别（ocr文档识别和表格识别的难点）-第1张

7档案OCR的实施

7.1 图像导入

7.1.1 档案OCR实施前，应当先评估纸质档案数字复制件质量是否符合OCR的基本要求。评估内容一般应包括图像分辨率、偏斜度、清晰度、失真度、亮度、对比度、灰度等。

7.1.2 纸质档案数字复制件的图像分辦率应不低于200dpi。特殊情况下，如文字偏小、密集、清晰度较差等，可以适当提高分辦率。文件命名应符合DA/T 13-1994、DA/T22-2015、DA/T31-2017的规定。

7.1.3 对质量不能达到档案OCR工作基本要求的纸质档案数字复制件，应按照DA/T31-2017的要求重新数字化后导入。

7.2 图像预处理

7.2.1 二值化

7.2.1.1在识别处理前，应对彩色图像进行灰度化和二值化处理;对灰度图像进行二值化处理。应采取局部自适应二值化等算法，并支持自动或手动调节。

7.2.1.2应具备亮度和对比度值自动、手动调节功能。亮度和对比度值的设定以调整后的图像中文文字的笔画连贯清晰为准。

7.2.2 图像降噪

7.2.2.1对图像中印刷体字符进行识别处理前，需要根据噪声的特征对待识别图像进行降噪处理，提升识别处理的精确度。

7.2.2.2降噪处理应去除在扫描过程中产生的污点、污线、黑边等影响图像质量的杂质，去除档案页面原有的纸张褪变斑点、水渍、污点、装订孔等影响识别的地方。

7.2.3 倾斜校正

7.2.3.1对图像进行识别前，应进行图像方向检测并进行自动水平或垂直倾斜校正。

7.2.3.2应支持由用户指定图像倾斜的角度，采用相应的图像旋转算法进行手工倾斜校正。

7.2.4 图像监测

图像质量控制程序应自动检测图像处理质量。对无法达到质量要求的图像进行标注。

7.3 比对识别

7.3.1 版式分析

7.3.1.1对比识别前应对图像中的字符块结构进行版式分析，把图像中相似的版块信息划分到一起。如横排文本、竖排文本、表格、图形等。

7.3.1.2版式分析可采取多种分析方法，自动检测各版块类型，对图像内部区域进行逻辑归类，记录各版块的位置，存储版面信息。

7.3.2 档案特征分析

7.3.2.1归档章分析。建立归档章式样库，自动识别图像中的归档章，并根据归档章样式，识别出字段位置，如全宗号、年度、机构、保管期限、件号、页数等。

7.3.2.2公文要素分析。建立公文格式库，可准确识别公文的版头、主体、版记三部分，识别公章、签章等区域，比照公文样式，识别密级和保密期限、紧急程度、发文字号、签发人、标题、主送机关、正文、附件说明、发文机关署名、成文日期、附注、附件、抄送机关等公文要素。公文要素OCR识别要求见附录A。

7.3.2.3表格分析。建立单独表格处理模块，建立专用表格模板定义工具，自定义文件处理单、发文稿纸、备考表等表格模板，识别表格中的字段位置。

7.3.2.4印章分析。识别印章图像位置，存储印章图像，建立印章名称与印章图像的关系库，用于版式恢复。

7.3.3 识别和匹配

7.3.3.1识别时应抽取字体、字号、粗体、斜体、首行缩进等字符特征，通过相似度计算方法，与特征数据库比对，识别为计算机文字内码。

7.3.3.2特征数据库应存储多种印刷体字符、常用签名和批注手写体字符，具备可更新和可扩充性对使用频率高的汉字、英文、数字以及常用的符号、常用签名和批注手写体字符应建立高频库。应将无法识别的手写体筛选出来，通过人工识别，并将识别结果存入字符库。

7.3.3.3应通过将比对后的识别文字根据上下文在可能的相似候选字群中找出最合乎逻辑的字词对识别文字进行除错或更正，以提高OCR识别准确率。

7.4 修改校正

7.4.1 应对识别的文本进行自动语义识别和校正，通过词汇库和语义库，对识别后文本中的字符、词汇、语句自动进行逐层分析更正。词汇库和语义库应具备更新和自动学习功能。

7.4.2 应对候选字、拒认字和可能有问题的字词、语句进行标记。

7.4.3 应支持以人工方式对OCR结果进行图像与识别文字对照、修正等校正的功能，以满足更高识别准确率的特殊要求。

7.5成果整理输出

7.5.1 成果整理

7.5.1.1 支持按照纸质档案数字复制件的版式对OCR结果的段落和表格进行版面理解与重建。重建后OCR结果的段落编排、表格样式应与纸质档案数字复制件图像一致。

7.5.1.2 应自动分析、提取党政机关公文的各公文要素，包括密级和保密期限、紧急程度、发文字号、签发人、标题、主送机关、正文、附件说明、发文机关署名、成文日期、附注、附件、抄送机关等。档案OCR成果结果中各公文要素位置应与纸质档案数字复制件图像一致。

7.5.1.3 应支持调用、编辑、备份、导出OCR结果，支持对文字、符号的搜索等功能。

7.5.2成果输出

7.5.2.1 档案OCR成果应同时保存为纯文本形式和双层PDF/OFD文件形式

7.5.2.2 应以纸质档案的件或页为单位输出、保存纯文本形式档案OCR成果。纯文本形式OCR成果保存规则参见表1

纸质档案数字复制件光学字符识别（ocr文档识别和表格识别的难点）-第2张

7.5.2.3应以档号为基础对纯文本形式档案OCR成果命名，命名方式的选择应确保档案OCR成果命名唯一性。一件档案保存为多个档案OCR成果文件时，应按档号结合OCR成果顺序流水号为档案OCR成果命名。

示例1:档号为A001-001-0001的纸质档案数字复制件，对应的OCR成果文件名为A00100100010001.txt。

示例2:档号为A001-001-0001-0002的纸质档案数字复制件包含收文处理单、文件正本两个文件，对应的OCR成果文件名分别为A00100100010002_01.txt和A00100100010002_02.txt。

7.5.2.4 应根据纸质档案数字复制件版式文件格式，自动形成支持全文检索的双层PDF或OFD文件，方便全文检索后对文件的阅读。

7.5.2.5 应支持按照档案著录规则和电子档案元数据规范，自动保存档案OCR成果中的党政机关公文要素。相关公文要素应保存到数字档案馆(室)应用系统数据库。

7.5.2.6 应支持档案OCR成果中文简繁体的自动转换功能。

7.5.3成果验收

7.5.3.1 应采用计算机自动检验与人工检验相结合的方式对纸质档案OCR成果进行验收检验。

7.5.3.2 验收检验内容包括OCR成果、提取的党政机关公文要素、数据挂接情况、OCR工作文件和存储载体等。

7.5.3.3 能够采用计算机自动检验的项目应采用计算机自动检验的方式进行100％检验，对于无法用计算机自动检验的项目，可根据情况以件或卷为单位采用抽检的方式进行人工检验。抽检比率不得低于5％。