python代码,python爬虫教程

节约时间，不要乱介绍，直接上例！输入以下代码共计6行

importrequestsfromlxmlimporthtmlurl=' 3359 movie.douban.com/' #需要攀登数据的网址page=requests.session(.get ) ) 看看获取的数据吧

print(result )、“看不见的客人”、“斯隆先生”、“美女与野兽”、“奇克”、“分裂”、“莎士比亚外传”、“八月”、“休斯顿，麻烦了！ )。“古城一线牵引”、“被操纵的城市”爬行动物结束~~~有木有充满成就感！

上述代码取自本页面、红框中的数据，也就是豆瓣电影本周的口碑排行榜。

下面简单介绍爬行动物的写法。

爬行动物之前，我先简单阐明两点。

1 .爬行动物网站

2 .需要攀登的内容(数据)。

第一步，爬虫类的网站，这个…那就做豆瓣吧。我不知道为什么在爬虫类教程中要切豆瓣开刀！

第二部分，有待攀登的内容(数据)。

这是上面6行代码的最后一行，可能是初学者认为最难的地方。代码的这一部分是获取数据。

//TD[@class='title']//a/text(] ()接下来，我们将逐步介绍如何编写上面行的代码

1 .打开网址https://movie.douban.com/，然后单击F12。

2 .用鼠标点击图中的按钮。

用鼠标点击应该爬的数据。在此，如图所示，点击“看不见的客人”。

看大红色框里的东西，不是有很多和我们最“重要”的代码相似的地方吗？

而且，它被认为是最后一行代码中最“重要”的部分。

//TD[@class="title"]//a/text ()。

//td :这相当于指定是大目录； [@class=”title”] :这相当于指定的小目录； //a :这相当于最小的目录； /text ()这是提取其中的数据。爬行动物介绍结束后，你也可以试试手。

试着登上“即将公开”

这只是将最后一行代码更改为

result=tree.XPath((/Li ) ) class='title ' ) ()/a/text ) () ) )如图所示，“即将上映”的电影将向你爬下。

你觉得爬行动物容易吗？已经可以了。

现实中，爬行动物面临着很多问题。例如：

1 .页面吉鲁不统一

2 .爬行的数据处理

3 .反爬行动物机制。

虽然有很多类似的问题，但要深入成为大神，还是需要一步一步。 5分钟内不能成为大神~~！

上面的六行代码包括python requests包、html知识和XPATH等。因为网上资料很多，所以这里不介绍。