用python画樱花(python定位图片坐标)

来源： python禅

作者：大铃铛

标题： https://un splash.com/@ Alvaro Serrano

在某个项目中遇到这样的需求时，必须对很多照片中的文字进行识别分类并保存数据库。用几万字的纯手敲击是下策。网络上有很多将照片转换为文字的在线服务，但转换单一图像没有任何问题。很遗憾，大量的图缺乏定制化。喜欢摆弄的程序员还是自己可靠的。开源项目的Tesseract是OCR识别专用的，其应用场景非常多。例如，认证码识别、检查

安装

Linux和Mac平台的安装非常简单，可以直接在命令行上安装。默认值仅为英语语言包，中文语言包需要附加指定

Windows台需要二进制安装软件包，官方下载地址为https://github.com/tessera CT-ocr/tessera CT/wiki/4.0-with-lstm # 400-alpps

配置

安装完成后，需要设置两个环境变量$PATH和$TESSDATA_PREFIX。如果稍后发生错误，请将tessertact安装路径添加到PATH变量，并将TESSDATA_PREFIX变量的值指定为语言包的路径

实战

Python-tesseract是tessertact的Python包，需要依赖图像处理库pil(pillow )，环境构建完成后可以开始定制开发。

以下，将杜甫的《登高》作为demo提取其中的文字

输出结果：

风突然高猿守望悲伤，渚清砂天鹅飞走了。消失不见，渐渐消失，长江滚滚而来。悲伤的秋天经常作客，百多年的病单独出现。痛恨艰辛多霜的鬓角，漫不经心地斟上新浑浊的酒杯。

可以根据自己的业务需求定制开发。为了应对各种环境下的图像，为了提高文字识别的精度，可能需要了解更多Tesseract的API。如果有兴趣的话，即使根据公众号开发，用户上传图片，自动识别文字，提供收费服务也不是不可能的。

关于Tesseract

Tesseract有30多年的历史，最早诞生于惠普实验室。 2005年，Tesseract由美国内华达州信息技术研究所获得，随后由谷歌赞助进行后续开发和维护。

以下几篇Tesseract相关论文最适合研究生的课题设计

https://github.com/tessera CT-ocr/tessera CT/wiki

论文： https://github.com/lzjun 567/the-papers-and-tessera CT-ocr -中的一个

推荐灯塔小编。更多精彩内容是灯塔大数据(DTbigdata )微信公众号) )。

【灯塔大数据】微信公众号介绍：中国电信北京研究院通过整合电信所有数据、互联网数据和离线数据，搭建行业领先的“灯塔”大数据行业应用平台，与行业伙伴合作构建大数据行业应用生态圈。目前，我们面向市场研究、广告、汽车、金融、人才等多个行业领域，提供零售研究、消费者研究、店铺选址、精准营销、泛义征信等服务，助力企业大数据时代的kkdls远行。

微信公众号【灯塔大数据】关键词信息：

【人工智能】获得人工智能时代的发展思考ppt

【月刊】下载大数据望月刊

【十月融资】下载2016年10月投融资月报

【网络安全】获取国民网络安全报告书全文

【23个理由】《大数据让你兴奋的23个理由》下载电子书

【思维导图】下载12种工具的获取方法

【灯塔】看到更多关键词的回复