来源: python禅
作者:大铃铛
标题: https://un splash.com/@ Alvaro Serrano
在某个项目中遇到这样的需求时,必须对很多照片中的文字进行识别分类并保存数据库。 用几万字的纯手敲击是下策。 网络上有很多将照片转换为文字的在线服务,但转换单一图像没有任何问题。 很遗憾,大量的图缺乏定制化。 喜欢摆弄的程序员还是自己可靠的。 开源项目的Tesseract是OCR识别专用的,其应用场景非常多。 例如,认证码识别、检查
安装
Linux和Mac平台的安装非常简单,可以直接在命令行上安装。 默认值仅为英语语言包,中文语言包需要附加指定
Windows台需要二进制安装软件包,官方下载地址为https://github.com/tessera CT-ocr/tessera CT/wiki/4.0-with-lstm # 400-alpps
配置
安装完成后,需要设置两个环境变量$PATH和$TESSDATA_PREFIX。 如果稍后发生错误,请将tessertact安装路径添加到PATH变量,并将TESSDATA_PREFIX变量的值指定为语言包的路径
实战
Python-tesseract是tessertact的Python包,需要依赖图像处理库pil(pillow ),环境构建完成后可以开始定制开发。
以下,将杜甫的《登高》作为demo提取其中的文字
输出结果:
风突然高猿守望悲伤,渚清砂天鹅飞走了。 消失不见,渐渐消失,长江滚滚而来。 悲伤的秋天经常作客,百多年的病单独出现。 痛恨艰辛多霜的鬓角,漫不经心地斟上新浑浊的酒杯。
可以根据自己的业务需求定制开发。 为了应对各种环境下的图像,为了提高文字识别的精度,可能需要了解更多Tesseract的API。 如果有兴趣的话,即使根据公众号开发,用户上传图片,自动识别文字,提供收费服务也不是不可能的。
关于Tesseract
Tesseract有30多年的历史,最早诞生于惠普实验室。 2005年,Tesseract由美国内华达州信息技术研究所获得,随后由谷歌赞助进行后续开发和维护。
以下几篇Tesseract相关论文最适合研究生的课题设计
https://github.com/tessera CT-ocr/tessera CT/wiki
论文: https://github.com/lzjun 567/the-papers-and-tessera CT-ocr -中的一个
推荐灯塔小编。 更多精彩内容是灯塔大数据(DTbigdata )微信公众号) )。
【灯塔大数据】微信公众号介绍:中国电信北京研究院通过整合电信所有数据、互联网数据和离线数据,搭建行业领先的“灯塔”大数据行业应用平台,与行业伙伴合作构建大数据行业应用生态圈。 目前,我们面向市场研究、广告、汽车、金融、人才等多个行业领域,提供零售研究、消费者研究、店铺选址、精准营销、泛义征信等服务,助力企业大数据时代的kkdls远行。
微信公众号【灯塔大数据】关键词信息:
【人工智能】获得人工智能时代的发展思考ppt
【月刊】下载大数据望月刊
【十月融资】下载2016年10月投融资月报
【网络安全】获取国民网络安全报告书全文
【23个理由】《大数据让你兴奋的23个理由》下载电子书
【思维导图】下载12种工具的获取方法
【灯塔】看到更多关键词的回复