首页 > 编程知识 正文

python代码,python爬虫教程

时间:2023-05-05 01:52:04 阅读:32822 作者:3969

节约时间,不要乱介绍,直接上例! 输入以下代码共计6行

importrequestsfromlxmlimporthtmlurl=' 3359 movie.douban.com/' #需要攀登数据的网址page=requests.session(.get ) ) 看看获取的数据吧

print(result )、“看不见的客人”、“斯隆先生”、“美女与野兽”、“奇克”、“分裂”、“莎士比亚外传”、“八月”、“休斯顿,麻烦了! )。“古城一线牵引”、“被操纵的城市”爬行动物结束~~~有木有充满成就感!

上述代码取自本页面、红框中的数据,也就是豆瓣电影本周的口碑排行榜。

下面简单介绍爬行动物的写法。

爬行动物之前,我先简单阐明两点。

1 .爬行动物网站

2 .需要攀登的内容(数据)。

第一步,爬虫类的网站,这个…那就做豆瓣吧。 我不知道为什么在爬虫类教程中要切豆瓣开刀!

第二部分,有待攀登的内容(数据)。

这是上面6行代码的最后一行,可能是初学者认为最难的地方。 代码的这一部分是获取数据。

//TD[@class='title']//a/text(] ()接下来,我们将逐步介绍如何编写上面行的代码

1 .打开网址https://movie.douban.com/,然后单击F12。

2 .用鼠标点击图中的按钮。

用鼠标点击应该爬的数据。 在此,如图所示,点击“看不见的客人”。

看大红色框里的东西,不是有很多和我们最“重要”的代码相似的地方吗?

而且,它被认为是最后一行代码中最“重要”的部分。

//TD[@class="title"]//a/text ()。

//td :这相当于指定是大目录; [@class=”title”] :这相当于指定的小目录; //a :这相当于最小的目录; /text ()这是提取其中的数据。 爬行动物介绍结束后,你也可以试试手。

试着登上“即将公开”

这只是将最后一行代码更改为

result=tree.XPath((/Li ) ) class='title ' ) ()/a/text ) () ) )如图所示,“即将上映”的电影将向你爬下。

你觉得爬行动物容易吗? 已经可以了。

现实中,爬行动物面临着很多问题。 例如:

1 .页面吉鲁不统一

2 .爬行的数据处理

3 .反爬行动物机制。

虽然有很多类似的问题,但要深入成为大神,还是需要一步一步。 5分钟内不能成为大神~~!

上面的六行代码包括python requests包、html知识和XPATH等。 因为网上资料很多,所以这里不介绍。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。