python可以实现什么功能,python爬虫教程

大家平时可能都有过在百度文库下载文档的经历，好不容易找了一个可以在文库里使用的资料，需要用下载券下载，做的人烦死了。

为了节约时间，有些人任性地做了文库VIP。你不用再为怎么做文档而烦恼了。如果你是百度文库的重量级用户，这样做当然没问题。

但是，学生党和一些上班族可能只是为了交作业而做产品报告的PPT等。我觉得没有必要对这种人打VIP。赚钱也不容易，所以可以节约。

有人决定去某宝买下载券，需要用的时候，用卖家给的账户和密码下载就可以了。我也用过这个方法，但是随着百度文库不断修复漏洞，一些卖家的账户和密码很快就会失效。这也不是很长的路。

当然，除了上述方法之外，还有我自己一点一点地贴复杂，放入手机版的百度文库APP中，作为文章保存，或者使用大家熟知的“冰点文库”……等等神操作。

我觉得这些都不是最佳解决方案，今天我要给大家看看我自己用Python写的百度文库免下载券的小项目。当然，这个项目主要用于学习Python爬行动物。如果涉嫌侵权，请联系删除。

1 .好处

不仅可以下载word文档，还可以下载PPT；

可以下载完整的文档

你不需要使用某个卖宝的脆弱网站。

2 .准备工作

)1)本次程序主要用于火狐浏览器的selenium。您可以在以下网站下载适用于您火狐浏览器的驱动程序geckodriver : 下载地址： https://github.com/Mozilla/gecko driver/releases /

下载后，将geckodriver.exe安装在Python的安装目录Scripts中，之后就可以正常使用了。

)2)由于此项目还涉及到PPT文档的下载，因此如果没有安装pptx模块，则必须在命令行中输入pip3 installpython-pptx进行预安装

3 .下载PPT文档

首先，找到需要下载券的PPT文档。本文来自https://wenku.Baidu.com/view/a 132 c 661 e ef9 AEF 8941 ea 76e 58 fafab 069 DC 443 d.html？以rec _ flag=defaults xts=1570202117357为例，打开“开发人员工具”并分析文档中的图像，如下图所示。

因为图像的标签存储在div中，所以在编写代码时必须首先找到该标签，然后取出图像的url。另外，取出url时需要注意。根据属性的不同，有“src”、“data-src”。否则，会发生文档丢失。主要代码如下。

4 .下载图片

提取图像的url后，可以下载所有图像并将其保存在指定路径下，名为pictures。代码如下所示。

5.PPT的组合

此时，需要使用您创建的函数重新合成上面下载的图像的ppt。在这里，我将使用生成刚才准备的ppt所需的包。另外，为了保证程序的顺利执行，还需要ppt模板。此模板中只有一个图像占位符。主要是为了在所有图像上安装模板来创建新的幻灯片。代码如下所示。

6 .下载6.word文档

有关文档下载，请参阅https://wenku.Baidu.com/view/1b5ee5dbad 51 f 01 DC 281 f 13e.html？以sxts=1570243034873为例。

主要的难点是页数过多的话，会出现“继续阅读”这个文字。在这种情况下，selenium模拟器必须自动单击，因此必须提取并找到“阅读继续”按钮。此外，还需要获取文档的下载总页码，并逐步组织最后提取的文本。

(1)、寻找“继续阅读”的位置

本文主要运用了正则表达式和js语法。首先要找到读继续的地方，如下图所示。

) 2、获取总页数

要检索整个文档，请首先找到文档的总页数，然后在下图中找到要保存总页数的选项卡。

它还分析文档中的文本存储在哪个标签中，如下图所示。

如您所见，字符主要存储在p标签中。找到合适的p标签，遍历每页以提取字符。最后，需要设置判断变量。由于抽出的文字有很多行，所以有些文字是段落，有些文字不是段落。在此，需要进行如下处理。

7 .写入文档

用特定的名称将下载的文档写入新文档。在这里不是什么难事。代码如下。

8 .结果展示

) 1、PPT下载

) 2、word下载

总结