分析文本资料的图像文件进行识别处理,
获取字符和布局信息的过程。
一般来说
包括图像输入、图像预处理、预识别等过程。
1
图像输入:
对于不同图像格式,
有不同的存储格式,
有多种压缩方法
现在有
OpenCV,CxImage
等待开源项目。
2
预处理:主要包括二值化、去噪、倾斜为正等。
2.1
二值化:
用照相机拍摄的图像大多是彩色图像,彩色图像中包含的信息量巨大,与此相对
为了使计算机更快更好,照片的内容可以很容易地分为前景和背景
要识别字符,必须首先处理彩色图表,使图像只保留前景信息和背景
信息可以简单地定义前景信息为黑色,背景信息为白色。 这就是二值化图。
2.2
去噪:
噪声的定义因文档而异。 根据噪声特征去除干燥,
称为去噪。
3
倾斜校正:一般用户在拍摄文档时,是随意拍摄的
图像不可避免地会产生倾斜,需要文字识别软件进行校正。
4
布局分析:将文档的图像分成段落,建立分店的过程称为布局分析。 是为了实际的文章
由于文件的多样性、复杂性,目前没有固定的最佳切割模型。
5
剪切文字:由于摄影条件的限制,文字往往粘连,钢笔断裂,因此存在局限性
制作了识别系统的性能。