首页 > 编程知识 正文

爬去百度贴吧成员等级,百万文字论坛-资料转载

时间:2023-05-04 12:50:32 阅读:140178 作者:3655

你好,我是王无心的发带。 现在,大学一年级学生是python初学者。 我想通过写博客分享自己学习的新获得,记录自己的成长。 这是自己学习的爬行动物案例比较简单的基础。 希望大家分享,大家喜欢!

爬虫的过程分析

我们自己访问网页的时候,怎么做?

1 .打开浏览器,输入要访问的网址,然后启动请求。

2 .等待服务器返回数据,用浏览器加载网页。

3 .从网页中找到所需的数据(文本、图像、文件等)。

4 .保存自己需要的数据。 (文件操作)

python爬行动物也很相似。 它模仿了人类请求网页的过程,但略有不同。

第一。 对应上述1和2的步骤,利用python实现请求网页的功能。

第二。 应对上述三个步骤,利用python实现分析请求的网页的功能。

最后。 以上四个步骤,利用python实现存储数据的功能。

这次需要的库有两个。

1.requests库(简单地说,就是请求访问网页以获取web数据) )。

2.lxml库(lxml是用于处理XML的第三方Python库,简单地说,获取的网络数据是二进制数据,需要进行转码并转换成我们能够理解的语言)。

多的不说直接开始吧!

首先导入requests库和lxml库,然后使用类进行编写。 此函数的作用是获取公告栏的地址,使用反爬虫修改头部信息,输入想要保存图像的关键词。

怎样获取头部信息,打开百度贴吧网站—右击检查(检查要素)网络(network ) (任意一个),找到用户代理并复制& 粘贴后像词典一样书写(注意不要写入浏览器信息影响访问),也就是说如下图所示

send_request函数有两个参数。 url和参数。 url是我们访问的网站,params是我们访问时询问的关键词,最后返回我们的数据等待数据分析。

filter函数的作用是提取信息并使用lxml库转码返回所需的内容。 有两个参数。 一个为date,另一个为rule,意味着会传递大量数据,并使用规则找到所需的数据。

函数的调用

1.list_date使用前面介绍的第二个函数访问网站并输入从关键字查询返回的数据。

2.detail_rule是制定在返回的数据中查找所需信息的规则。 在留言板主页上搜索女神后,在进入搜索的页面中右键单击元素——,然后单击发帖人的名字。 (系统自动位于图片粘贴者的位置,即图中的href ) )。

如果了解html的知识,则可知图像被定位为’//div [ @ class=“t _ concleafix”]/div/div/div/a/@ href’

3.datail_rule_list调用函数filter返回我们需要的信息。 此时返回的信息是列表,列表中是实际贴在公告栏上的主定位信息。

4 .巡视列表,在每个地址前添加百度贴吧的基础网站获得发帖人的位置,进入发帖人的帖子内容即datail_date。 这个内容有图像的文字,我们获取图像的位置也是规则。 与上述相同,可以点击要素的右键要素的检索要素的检索点击图像取得图像,确定scr即“//img[@class=“BDE_image”]/@src”

5获取位置(规则) image_rule,再次调用filter函数获取图像的位置信息列表,遍历列表获取各图像的网址,使用文件操作将图像下载到文件中。

最后调用函数再次运行,输入女神。

感兴趣的朋友把我当成私人,有免费代码和免费视频教育。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。