首页 > 编程知识 正文

python可以实现什么功能,python爬虫教程

时间:2023-05-06 07:22:59 阅读:152619 作者:967

大家平时可能都有过在百度文库下载文档的经历,好不容易找了一个可以在文库里使用的资料,需要用下载券下载,做的人烦死了。

为了节约时间,有些人任性地做了文库VIP。 你不用再为怎么做文档而烦恼了。 如果你是百度文库的重量级用户,这样做当然没问题。

但是,学生党和一些上班族可能只是为了交作业而做产品报告的PPT等。 我觉得没有必要对这种人打VIP。 赚钱也不容易,所以可以节约。

有人决定去某宝买下载券,需要用的时候,用卖家给的账户和密码下载就可以了。 我也用过这个方法,但是随着百度文库不断修复漏洞,一些卖家的账户和密码很快就会失效。 这也不是很长的路。

当然,除了上述方法之外,还有我自己一点一点地贴复杂,放入手机版的百度文库APP中,作为文章保存,或者使用大家熟知的“冰点文库”……等等神操作。

我觉得这些都不是最佳解决方案,今天我要给大家看看我自己用Python写的百度文库免下载券的小项目。 当然,这个项目主要用于学习Python爬行动物。 如果涉嫌侵权,请联系删除。

1 .好处

不仅可以下载word文档,还可以下载PPT;

可以下载完整的文档

你不需要使用某个卖宝的脆弱网站。

2 .准备工作

)1)本次程序主要用于火狐浏览器的selenium。 您可以在以下网站下载适用于您火狐浏览器的驱动程序geckodriver : 下载地址: https://github.com/Mozilla/gecko driver/releases /

下载后,将geckodriver.exe安装在Python的安装目录Scripts中,之后就可以正常使用了。

)2)由于此项目还涉及到PPT文档的下载,因此如果没有安装pptx模块,则必须在命令行中输入pip3 installpython-pptx进行预安装

3 .下载PPT文档

首先,找到需要下载券的PPT文档。 本文来自https://wenku.Baidu.com/view/a 132 c 661 e ef9 AEF 8941 ea 76e 58 fafab 069 DC 443 d.html? 以rec _ flag=defaults xts=1570202117357为例,打开“开发人员工具”并分析文档中的图像,如下图所示。

因为图像的标签存储在div中,所以在编写代码时必须首先找到该标签,然后取出图像的url。 另外,取出url时需要注意。 根据属性的不同,有“src”、“data-src”。 否则,会发生文档丢失。 主要代码如下。

4 .下载图片

提取图像的url后,可以下载所有图像并将其保存在指定路径下,名为pictures。 代码如下所示。

5.PPT的组合

此时,需要使用您创建的函数重新合成上面下载的图像的ppt。 在这里,我将使用生成刚才准备的ppt所需的包。 另外,为了保证程序的顺利执行,还需要ppt模板。 此模板中只有一个图像占位符。 主要是为了在所有图像上安装模板来创建新的幻灯片。 代码如下所示。

6 .下载6.word文档

有关文档下载,请参阅https://wenku.Baidu.com/view/1b5ee5dbad 51 f 01 DC 281 f 13e.html? 以sxts=1570243034873为例。

主要的难点是页数过多的话,会出现“继续阅读”这个文字。 在这种情况下,selenium模拟器必须自动单击,因此必须提取并找到“阅读继续”按钮。 此外,还需要获取文档的下载总页码,并逐步组织最后提取的文本。

(1)、寻找“继续阅读”的位置

本文主要运用了正则表达式和js语法。 首先要找到读继续的地方,如下图所示。

) 2、获取总页数

要检索整个文档,请首先找到文档的总页数,然后在下图中找到要保存总页数的选项卡。

它还分析文档中的文本存储在哪个标签中,如下图所示。

如您所见,字符主要存储在p标签中。 找到合适的p标签,遍历每页以提取字符。 最后,需要设置判断变量。 由于抽出的文字有很多行,所以有些文字是段落,有些文字不是段落。 在此,需要进行如下处理。

7 .写入文档

用特定的名称将下载的文档写入新文档。 在这里不是什么难事。 代码如下。

8 .结果展示

) 1、PPT下载

) 2、word下载

总结

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。