首页 > 编程知识 正文

为什么学爬虫容易坐牢,普通人学python有意义吗

时间:2023-05-04 01:26:22 阅读:38407 作者:4183

网络爬虫主要分为四大版块。 明确目的分析网页结构,

找到网页的信息地址,

提取信息,

保存信息

以下是一个用网络爬虫拍百度图片猫的案例

项目案例:取百度网站所有狗的照片

分步分析(第一步)明确目标,以百度中狗的照片为目标进行爬网,分析网页结构1、输入以下网站

3358 image.Baidu.com/search/flip? TN=baiduimageipn=RCT=201326592 cl=2lm=-1st=-1fm=result fr=SF=1fmq=1553161291913 _ RPV=IC=0nc=1z=Hz

2、选择下一页时,发现只有pn和gsm的值发生了变化。

迄今为止,我所知道的是,pn参数表示页数,word参数当然是关键词,需要转换编码格式。

gsm的值随便改变似乎也没有什么影响。 根据一种说法,gsm:表示pn的十六进制值

3、可以连接页面请求的URL。 代码如下

importsysimporturlibimportrequestsdefgetpage (keyword,page, n ) :page=page* nkeyword=urlib.parse.quote ) keyword ) urlib.parse.quote TN=baiduimageie=utf-8 word=' URL=URL _ begin keywowote ' CT=IC=0lm=-1 width=0height=0' returnurl第二步骤:找到网页图片地址1,右键单击网页源代码分析JSON数据,即可获得其中的图片地址

2、从URL地址得到图像地址的代码如下。

defget_onepage_urls(onepageurl ) :try:html=requests.get ) one pageurl.textexceptexceptionase 3360 priont () 滚动图片保存defdown_pic(pic_urls ) : ),提供图片链接列表,下载所有图片(,for i,pic_URLinenumerate(pic_urls ) timeout=15 ) string='data2/'str 'wb ' ) ASF:f.write(pic.content ) print ) (照片:%s )已成功下载str(pic_URL ) ) exceptexceptionase : print (正在下载第' s张图像时:%s'%失败) str (i1 )、str(pic_URL ) ) 调用函数if _ _ name _==' _ main _ ' : keyword='狗' #关键字,就像在更改为要输入的内容的百度图像中搜索一样,page _ begin=0page _ nu n while 13360 if page_beginimage _ num mage [ page _ begin ] (URL=getpage (keyword,page _ begin,page_number ) one page )

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。