python爬虫爬图片教程(python网络爬虫爬取图片)

攀登的流程从煎鸡蛋网妹妹图的第一页开始抓起；取分页符得到最后一页的数字；根据最后页数，取得所有页面的URL；重复所有页面，捕获页面所有妹妹的图像url；访问图像的URL，并将图像保存到文件夹中。通过上一篇文章的爬网过程，我们基本上理解了抓住一个网站的大致流程。因为一个网站有很多页面，但大多数网站每一页的HTML标签内容都是相同的。我们只要获取一页的内容，就可以获取所有页面的内容。那么在开始之前，先分析一下荷包蛋网妹妹图页面的URL吧。

第一页的URL:http://jandan.net/ooxx/page-1

第2页： http://jandan.net/ooxx/page-2

最后一页： http://jandan.net/ooxx/page-49

煎鸡蛋网的url规律比较简单，每页后面的page数字是数字。在中，可以在一个循环中获取所有页面URL。但是，你应该认为这个网站每天都会更新。

所以，需要通过页面的标签信息让程序自身获取页数。当您访问名为http://jandan.net/ooxx/的页面时，您将直接访问最后一页。大家自己试试。

爬行动物的第一步是分析网站。像我这样的zxdxtg，只要用f12和右键查看源代码就可以了

另一个requests返回右键单击源文件

里面没有很多东西，需要兄弟分析

这就是我分析的必要内容。然后我们去拿这个

但是，上面给的地址无法访问

因为他是用base64加密的

Base64编码是“防君子不防小人”的编码方式。广泛用于MIME协议，作为电子邮件传输代码生成的代码是可逆的，后一两位可能有“=”，生成的代码都是ascii字符。

优点：速度快，ascii文字，肉眼无法理解

缺点：代码长、非常容易解密，仅适用于加密不重要的信息

用python调用base64库就可以了

import base64 s=' ly 93 dz mu C2 luywltzy5JB i9 tdzywmc8wmdzytkvzn2D5 mwz2a2z3bnbknglqmze4dt fr D2 fvzy 5q cgc=' w=base64.b 64 decode (

from bs4 importbeautifulsoupimportrequestsimportos #文件操作模块import base64 importlxmldefmakefile (str ) : path1=os.getcwd 当前目录位置print (当前目录位置：(path1) path1=path1)/) strifnotOS.path.isdir ) path1) : print )成功创建了当前路径上不存在文件夹) str ) OS.mmont的print(str ) photo文件夹() else 3360 路径存在路径) path1)返回路径1 defdownphoto )、本地地址(: # print (OS.getcwd ) ) # z='D:\Python程序 (' z=os.getcwd ) ) () () () ) ) ) n ' ) #打印(Z1 )头部={ '用户代理' : ' Mozilla/5.0 () 双赢64； x64 ) appleWebKit/537.36(khtml，like Gecko ) chrome/71.0.3578.98 safari/537.36 ' } re=requests.get ) netadrese 双赢64； x64 ) appleWebKit/537.36(khtml，like Gecko ) chrome/71.0.3578.98 safari/537.36 ' } URL=next URL # ' 3359 movie . timeout=5(#print(f.content ) #print )-------------(n ' lxml ' ) #print(soup(###图像URL # pprint ) 打印(soup.title ) imgurl=[] foriinqq : imgurl.append (str (I ) print ) I )戴尔猎豹=base64.b64decode () (split ) ()1) ) ) ) split 调用：print(iii:*'I'n ' ) downphoto(i ) I，localadress (下载图像函数path1=makefile (煎鸡蛋photo ) ) )