为什么学爬虫容易坐牢,普通人学python有意义吗

网络爬虫主要分为四大版块。明确目的分析网页结构，

找到网页的信息地址，

提取信息，

保存信息

以下是一个用网络爬虫拍百度图片猫的案例

项目案例：取百度网站所有狗的照片

分步分析(第一步)明确目标，以百度中狗的照片为目标进行爬网，分析网页结构1、输入以下网站

3358 image.Baidu.com/search/flip？ TN=baiduimageipn=RCT=201326592 cl=2lm=-1st=-1fm=result fr=SF=1fmq=1553161291913 _ RPV=IC=0nc=1z=Hz

2、选择下一页时，发现只有pn和gsm的值发生了变化。

迄今为止，我所知道的是，pn参数表示页数，word参数当然是关键词，需要转换编码格式。

gsm的值随便改变似乎也没有什么影响。根据一种说法，gsm:表示pn的十六进制值

3、可以连接页面请求的URL。代码如下

importsysimporturlibimportrequestsdefgetpage (keyword，page， n ) :page=page* nkeyword=urlib.parse.quote ) keyword ) urlib.parse.quote TN=baiduimageie=utf-8 word=' URL=URL _ begin keywowote ' CT=IC=0lm=-1 width=0height=0' returnurl第二步骤：找到网页图片地址1，右键单击网页源代码分析JSON数据，即可获得其中的图片地址

2、从URL地址得到图像地址的代码如下。

defget_onepage_urls(onepageurl ) :try:html=requests.get ) one pageurl.textexceptexceptionase 3360 priont () 滚动图片保存defdown_pic(pic_urls ) : )，提供图片链接列表，下载所有图片(，for i，pic_URLinenumerate(pic_urls ) timeout=15 ) string='data2/'str 'wb ' ) ASF:f.write(pic.content ) print ) (照片：%s )已成功下载str(pic_URL ) ) exceptexceptionase : print (正在下载第' s张图像时：%s'%失败) str (i1 )、str(pic_URL ) ) 调用函数if _ _ name _==' _ main _ ' : keyword='狗' #关键字，就像在更改为要输入的内容的百度图像中搜索一样，page _ begin=0page _ nu n while 13360 if page_beginimage _ num mage [ page _ begin ] (URL=getpage (keyword，page _ begin，page_number ) one page )