首页 > 编程知识 正文

python爬虫爬图片教程(python网络爬虫爬取图片)

时间:2023-05-04 07:45:40 阅读:72215 作者:603

攀登的流程从煎鸡蛋网妹妹图的第一页开始抓起; 取分页符得到最后一页的数字; 根据最后页数,取得所有页面的URL; 重复所有页面,捕获页面所有妹妹的图像url; 访问图像的URL,并将图像保存到文件夹中。 通过上一篇文章的爬网过程,我们基本上理解了抓住一个网站的大致流程。 因为一个网站有很多页面,但大多数网站每一页的HTML标签内容都是相同的。 我们只要获取一页的内容,就可以获取所有页面的内容。 那么在开始之前,先分析一下荷包蛋网妹妹图页面的URL吧。

第一页的URL:http://jandan.net/ooxx/page-1

第2页: http://jandan.net/ooxx/page-2

最后一页: http://jandan.net/ooxx/page-49

煎鸡蛋网的url规律比较简单,每页后面的page数字是数字。 在中,可以在一个循环中获取所有页面URL。 但是,你应该认为这个网站每天都会更新。

所以,需要通过页面的标签信息让程序自身获取页数。 当您访问名为http://jandan.net/ooxx/的页面时,您将直接访问最后一页。 大家自己试试。

爬行动物的第一步是分析网站。 像我这样的zxdxtg,只要用f12和右键查看源代码就可以了

另一个requests返回右键单击源文件

里面没有很多东西,需要兄弟分析

这就是我分析的必要内容。 然后我们去拿这个

但是,上面给的地址无法访问

因为他是用base64加密的

Base64编码是“防君子不防小人”的编码方式。 广泛用于MIME协议,作为电子邮件传输代码生成的代码是可逆的,后一两位可能有“=”,生成的代码都是ascii字符。

优点:速度快,ascii文字,肉眼无法理解

缺点:代码长、非常容易解密,仅适用于加密不重要的信息

用python调用base64库就可以了

import base64 s=' ly 93 dz mu C2 luywltzy5JB i9 tdzywmc8wmdzytkvzn2D5 mwz2a2z3bnbknglqmze4dt fr D2 fvzy 5q cgc=' w=base64.b 64 decode (

from bs4 importbeautifulsoupimportrequestsimportos #文件操作模块import base64 importlxmldefmakefile (str ) : path1=os.getcwd 当前目录位置print (当前目录位置:(path1) path1=path1)/) strifnotOS.path.isdir ) path1) : print )成功创建了当前路径上不存在文件夹) str ) OS.mmont的print(str ) photo文件夹() else 3360 路径存在路径) path1)返回路径1 defdownphoto )、本地地址(: # print (OS.getcwd ) ) # z='D:\Python程序 (' z=os.getcwd ) ) () () () ) ) ) n ' ) #打印(Z1 )头部={ '用户代理' : ' Mozilla/5.0 () 双赢64; x64 ) appleWebKit/537.36(khtml,like Gecko ) chrome/71.0.3578.98 safari/537.36 ' } re=requests.get ) netadrese 双赢64; x64 ) appleWebKit/537.36(khtml,like Gecko ) chrome/71.0.3578.98 safari/537.36 ' } URL=next URL # ' 3359 movie . timeout=5(#print(f.content ) #print )-------------(n ' lxml ' ) #print(soup(###图像URL # pprint ) 打印(soup.title ) imgurl=[] foriinqq : imgurl.append (str (I ) print ) I )戴尔猎豹=base64.b64decode () (split ) ()1) ) ) ) split 调用:print(iii:*'I'n ' ) downphoto(i ) I,localadress (下载图像函数path1=makefile (煎鸡蛋photo ) ) )

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。