上一篇文章简要介绍了文字识别模块在python中的使用。原理是将PDF转换为图像，然后通过python模块进行字符识别将图像转换为字符，但是看起来比较简单和单调。

那么在这篇文章中，让我们来做超越时代、保证质量的工作吧。而且不需要转换成图像那样复杂的过程，而且能够批量转换不是很棒吗？这就是python给你带来的魅力，简单易用。

用到的模块类库：

操作系统/配置解析器/io /比较/pdf监视器/文档x

这些很多都是做文字处理机的，有兴趣的话大家可以百度一下。这里不多做说明。

所需的依赖：

attrs==17.4.0

lxml==4.1.1

pdf监视器3k==1.3. 1

pluggy==0.6.0

ply==3.11

py==1.5.2

pytest==3.4.1

python-docx==0.8.6

six==1.11.0

以上依赖关系可以创建一个名为requirements.txt的记事本文件，稍后直接加载和安装。

视点v

source venv/坏支架/活动

pip安装-要求. txt

自己创建python虚拟环境的目录，使用pip -r我们创建的依赖文本，进行自动安装。

然后创建PDF文档路径和word文档路径，并创建配置文件以存储路径信息。主要是在以后更改时方便

默认设置

pdf文件夹=/你的pdf路径/

pdf word _文件夹=/你的word路径/

word max _工作器=5

上面两个结束后，可以编写代码：

导入之前需要的模块：

如果有必要的模块，就可以进行文档操作。首先，需要PDF文档读取函数。

这个函数中可能有没有见过的函数，但没关系。那是自己定义的函数，如下所示。

上的函数的目的是将字符另存为word。当然，需要进行一些聚类文字处理。我们在下面分别写函数进行处理，然后调用这个函数。

然后，执行控制字符处理，并创建remove_control_characters ()函数。

然后，在总包中，为PDF创建word函数。

上面的函数正好集合了前面创建的两个函数，所以需要进入主函数进行格式转换时，可以直接调用pdf_to_word ) )的函数传递参数。

。

在主函数中做一些常规的匹配判断，很容易理解。现在，你只要拼接起来就可以使用了。

很简单吧？因为时间问题，在这里不怎么做注释。如果有不明白的地方可以留言哦~