首页 > 编程知识 正文

python编程300例pdf百度云(程序员学python pdf)

时间:2023-05-05 08:18:03 阅读:81030 作者:738

上一篇文章简要介绍了文字识别模块在python中的使用。 原理是将PDF转换为图像,然后通过python模块进行字符识别将图像转换为字符,但是看起来比较简单和单调。

那么在这篇文章中,让我们来做超越时代、保证质量的工作吧。 而且不需要转换成图像那样复杂的过程,而且能够批量转换不是很棒吗? 这就是python给你带来的魅力,简单易用。

用到的模块类库:

操作系统/配置解析器/io /比较/pdf监视器/文档x

这些很多都是做文字处理机的,有兴趣的话大家可以百度一下。 这里不多做说明。

所需的依赖:

attrs==17.4.0

lxml==4.1.1

pdf监视器3k==1.3. 1

pluggy==0.6.0

ply==3.11

py==1.5.2

pytest==3.4.1

python-docx==0.8.6

six==1.11.0

以上依赖关系可以创建一个名为requirements.txt的记事本文件,稍后直接加载和安装。

创建Python虚拟环境:

视点v

source venv/坏支架/活动

pip安装-要求. txt

自己创建python虚拟环境的目录,使用pip -r我们创建的依赖文本,进行自动安装。

创建配置文件:

然后创建PDF文档路径和word文档路径,并创建配置文件以存储路径信息。 主要是在以后更改时方便

默认设置

pdf文件夹=/你的pdf路径/

pdf word _文件夹=/你的word路径/

word max _工作器=5

上面两个结束后,可以编写代码:

导入之前需要的模块:

如果有必要的模块,就可以进行文档操作。 首先,需要PDF文档读取函数。

这个函数中可能有没有见过的函数,但没关系。 那是自己定义的函数,如下所示。

上的函数的目的是将字符另存为word。 当然,需要进行一些聚类文字处理。 我们在下面分别写函数进行处理,然后调用这个函数。

然后,执行控制字符处理,并创建remove_control_characters ()函数。

然后,在总包中,为PDF创建word函数。

上面的函数正好集合了前面创建的两个函数,所以需要进入主函数进行格式转换时,可以直接调用pdf_to_word ) )的函数传递参数。

定义函数入口(主函数):

在主函数中做一些常规的匹配判断,很容易理解。 现在,你只要拼接起来就可以使用了。

很简单吧? 因为时间问题,在这里不怎么做注释。 如果有不明白的地方可以留言哦~

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。