节约时间,不要乱介绍,直接上例! 输入以下代码共计6行
importrequestsfromlxmlimporthtmlurl=' 3359 movie.douban.com/' #需要攀登数据的网址page=requests.session(.get ) ) 看看获取的数据吧
print(result )、“看不见的客人”、“斯隆先生”、“美女与野兽”、“奇克”、“分裂”、“莎士比亚外传”、“八月”、“休斯顿,麻烦了! )。“古城一线牵引”、“被操纵的城市”爬行动物结束~~~有木有充满成就感!
上述代码取自本页面、红框中的数据,也就是豆瓣电影本周的口碑排行榜。
下面简单介绍爬行动物的写法。
爬行动物之前,我先简单阐明两点。
1 .爬行动物网站
2 .需要攀登的内容(数据)。
第一步,爬虫类的网站,这个…那就做豆瓣吧。 我不知道为什么在爬虫类教程中要切豆瓣开刀!
第二部分,有待攀登的内容(数据)。
这是上面6行代码的最后一行,可能是初学者认为最难的地方。 代码的这一部分是获取数据。
//TD[@class='title']//a/text(] ()接下来,我们将逐步介绍如何编写上面行的代码
1 .打开网址https://movie.douban.com/,然后单击F12。
2 .用鼠标点击图中的按钮。
用鼠标点击应该爬的数据。 在此,如图所示,点击“看不见的客人”。
看大红色框里的东西,不是有很多和我们最“重要”的代码相似的地方吗?
而且,它被认为是最后一行代码中最“重要”的部分。
//TD[@class="title"]//a/text ()。
//td :这相当于指定是大目录; [@class=”title”] :这相当于指定的小目录; //a :这相当于最小的目录; /text ()这是提取其中的数据。 爬行动物介绍结束后,你也可以试试手。
试着登上“即将公开”
这只是将最后一行代码更改为
result=tree.XPath((/Li ) ) class='title ' ) ()/a/text ) () ) )如图所示,“即将上映”的电影将向你爬下。
你觉得爬行动物容易吗? 已经可以了。
现实中,爬行动物面临着很多问题。 例如:
1 .页面吉鲁不统一
2 .爬行的数据处理
3 .反爬行动物机制。
虽然有很多类似的问题,但要深入成为大神,还是需要一步一步。 5分钟内不能成为大神~~!
上面的六行代码包括python requests包、html知识和XPATH等。 因为网上资料很多,所以这里不介绍。