光学字符识别(ocr )是指扫描仪或数码相机等电子设备检查印刷在纸上的字符,通过检测暗、亮的图案来确定其形状,并通过字符识别方法将形状翻译成计算机字符
现在很多软件都支持这一功能。 例如,钉钉子支持扫描图像并直接转换为字符。
现在有Java包的API。 那是Tess 4j (https://github.com/nguyenq/Tess 4j )。
Tesseract是一个受欢迎的OCR开源项目。 在Tess4J中,可以访问Java的Tesseract API。 要下载此存储库并下载Tesseracts LSTM数据,需要进行一些设置。 然后,Java可以轻松地执行OCR。 如果对识别的文本不满意,请参阅Tesseract文档的“提高输出质量”部分(3359 tessera CT-ocr.github.io/Tess doc/improve quality.html )
ependencygroupidnet.SourceForge.Tess 4j/groupidartifactidtess 4j/artifactidversion4.5.3/version/dependency