首页 > 编程知识 正文

安装系统,openfiler安装教程

时间:2023-05-06 07:01:13 阅读:174884 作者:447

安装tesseract OCR,即光学角色注册。 光学文字识别是扫描文字并根据其形状将其转换成电子文本的过程。 对于图形验证码,这些都是不规则的文字,这些文字确实是将文字稍微扭曲后变换而成的。

tesseract下载地址: https://digi.bib.uni-mannheim.de/tessera CT /

进入下载页面后,您将看到各种. exe文件的下载列表。 在这里还可以下载3.0版。

其中,文件名中带dev的为开发版,不带dev的为稳定版,也可以下载不带dev的。 例如,您也可以下载tessera CT-ocr-setup-3.05.02.exe。

下载完成后双击,会显示如下图所示的页面。

您可以在此处选中additionallanguagedata (download )选项以安装OCR支持的语言包,从而使OCR能够识别多种语言。 然后,请单击Next按钮。

接下来,要在python代码中使用tesseract功能,请使用pip安装pytesseract。

pip安装pytesseract

2、配置环境变量便于全局使用。 例如,如果安装路径是d:programfiles(x86 )Tesseract-OCR,将该路径添加到环境变量的path中

配置完成后,在命令行中输入tesseract -v。 环境变量已成功配置,如下图所示

3、验证安装然后可以分别使用tesseract和pytesseract进行测试。

将下图所示的图像作为样本进行测试。

指向此图像的链接可直接保存或下载到https://raw.github user content.com/python3web spider/testtess/master/image.png。

首先在命令行中进行测试,将图像下载到驱动器的chromeDownload文件夹中,将其另存为image.png,然后在该文件夹中打开命令行,并使用tesseract命令进行测试。

tesseract image.png result

执行结果如下。

d : (chromedownloadtesseractimage.png result

tesseractopensourceocrenginev3. 05.02 withleptonica

在这里,我调用了tesseract命令。 第一个参数是图像名称,第二个参数result是存储结果的目标文件名。

执行结果是图像的识别结果。 这是Python3WebSpider。 result.txt显示在chromeDownload文件夹中,并成功将图像文本转换为电子文本。

然后,也可以使用Python代码进行测试。 在这里,您需要使用pytesseract库。 测试代码如下所示。

frompilimportimportimportimportpytesseracttext=pytesseract.image _ to _ string (image.open (r ' d : (chrome download ) )

执行结果如下。

Python3WebSpider

如果结果成功输出,则验证tesseract和pytesseract均已成功安装。

4、使用时遇到的漏洞使用tesseract命令行进行测试时,会议开始报告以下错误

erroropeningdatafileprogram files (x86 ) tessera CT-ocrTess data/eng.trained data

pleasemakesurethetessdata _ prefixenvironmentvariableissettotheparentdirectoryofyour ' Tess data ' directory。

失败的载入语言' eng '

tesseractcouldn ' tloadanylanguages!

Could not initialize tesseract。

错误意味着环境变量TESSDATA_PREFIX不足,无法加载任何语言,也无法初始化tesseract。

解决方法也很简单。 将TESSDATA_PREFIX添加到环境变量中,如下图所示

注:变量值路径为d:/programfiles(x86 )/Tesseract-OCR,并使用正斜杠“/”。 在windows上复制的路径默认为反斜杠“”

配置完成后,可以重新打开命令行以正常使用。

第二个凹坑在使用pytesseract时发生以下错误

跟踪后台(mostrecentcalllast ) :

file ' d :python 36libsite-packagespytesseract.py ',line 170,in run_tesseract

proc=subprocess.popen(cmd_args,**subprocess_args ) )

file ' d :python 36libsubprocess.py ',line 709,in __init__

restore_signals,start_new_session )

file ' d :python 36libsubprocess.py ',line 997,in _execute_child

startupinfo )

找不到在file not found error 3360 [ winerror2]系统中指定的文件。

duringhandlingoftheaboveexception,another exception occurred:

跟踪后台(mostrecentcalllast ) :

File 'D:/python/20180911.py ',line 4,in module

text=pytesseract.image _ to _ string (image.open (r ' d : (chrome download (image.png ' ) )

file ' d :python 36libsite-packagespytesseract.py ',line 294,in image_to_string

returnrun_and_get_output(*args ) )。

file ' d :python 36libsite-packagespytesseract.py ',line 202,inrun_and_get_out

run_tesseract(**Kwargs ) ) ) ) ) ) ) ) ) ) ) ) ) )。

file ' d :python 36libsite-packagespytesseract.py ',line 172,in run_tesseract

raise TesseractNotFoundError (

pytesseract.pytesseract.tesseractnotfounderror : tesseractisnotinstalledorit ' snotinyourpath

这个有洞。 添加了全局变量吗? 还是表示没有安装tesseract或不在PATH中?

百度一下,解决方案如下。

安装pytesseract后,将在python lib目录下的site-packges下生成pytesseract文件夹。 在这个文件夹中找到pytesseract.py。 路径为d:python36libsite-。

# changethisiftesseractisnotinyourpath,OR IS NAMED DIFFERENTLY

tesseract_cmd='tesseract '

将tesseract_cmd='tesseract '更改为tessera CT _ cmd=' d :/program files (x86 )/Tesseract-OCR/tesseract.exe

指示tesseract_cmd配置了安装tesseract的绝对路径。 这样就可以找到tesseract了。 修改后保存,执行python代码就成功了。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。