上一篇文章简要介绍了文字识别模块在python中的使用。 原理是将PDF转换为图像,然后通过python模块进行字符识别将图像转换为字符,但是看起来比较简单和单调。
那么在这篇文章中,让我们来做超越时代、保证质量的工作吧。 而且不需要转换成图像那样复杂的过程,而且能够批量转换不是很棒吗? 这就是python给你带来的魅力,简单易用。
用到的模块类库:
操作系统/配置解析器/io /比较/pdf监视器/文档x这些很多都是做文字处理机的,有兴趣的话大家可以百度一下。 这里不多做说明。
所需的依赖:
attrs==17.4.0lxml==4.1.1
pdf监视器3k==1.3. 1
pluggy==0.6.0
ply==3.11
py==1.5.2
pytest==3.4.1
python-docx==0.8.6
six==1.11.0
以上依赖关系可以创建一个名为requirements.txt的记事本文件,稍后直接加载和安装。
创建Python虚拟环境:
视点vsource venv/坏支架/活动
pip安装-要求. txt
自己创建python虚拟环境的目录,使用pip -r我们创建的依赖文本,进行自动安装。
创建配置文件:
然后创建PDF文档路径和word文档路径,并创建配置文件以存储路径信息。 主要是在以后更改时方便默认设置
pdf文件夹=/你的pdf路径/
pdf word _文件夹=/你的word路径/
word max _工作器=5
上面两个结束后,可以编写代码:
导入之前需要的模块:
如果有必要的模块,就可以进行文档操作。 首先,需要PDF文档读取函数。
这个函数中可能有没有见过的函数,但没关系。 那是自己定义的函数,如下所示。
上的函数的目的是将字符另存为word。 当然,需要进行一些聚类文字处理。 我们在下面分别写函数进行处理,然后调用这个函数。
然后,执行控制字符处理,并创建remove_control_characters ()函数。
然后,在总包中,为PDF创建word函数。
上面的函数正好集合了前面创建的两个函数,所以需要进入主函数进行格式转换时,可以直接调用pdf_to_word ) )的函数传递参数。
定义函数入口(主函数):
。在主函数中做一些常规的匹配判断,很容易理解。 现在,你只要拼接起来就可以使用了。
很简单吧? 因为时间问题,在这里不怎么做注释。 如果有不明白的地方可以留言哦~