易语言爬虫和python

[Python] 纯文本查看复制代码import requests

import re

import os

# 设置浏览器引擎

headers ={

'User-Agent': 'Mozilla/5.0(Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'

}

# 根据搜索，得到搜索结果网页

search = input('你想找怎样的女盆友： ')

murl = 'https://www.tujigu.com/search/' + search

response = requests.get(murl, headers=headers)

HTML = response.content.decode('utf-8')

urls = re.findall('

# 从全部图集URL中，找出单个图集的URL进行分析

for url in urls:

response = requests.get(url, headers=headers)

HTML = response.content.decode('utf-8')

picsname = re.findall('

(.*?)', HTML)[0] # 图集的名称

picmax = int(re.findall('

图片数量： (.*?)P

', HTML)[0]) # 获取总的图片数量

ID = url.split("/")[4] #获取图集的ID，方便进行图片URL的拼接

path = '图集谷\' + picsname

# 创建图集目录

if not os.path.exists(path):

os.makedirs(path)

print('目录创建完成！，记得设置为隐私文件哦 ')

else:

print('目录已创建！！，一看就是老绅士了 ')

# 开始下载图集

print(picsname)

print('开始下载嗷~~~')

for i in range(1, picmax):

picurl = 'https://lns.hywly.com/a/1/' + ID +'/' + str(i) + '.jpg'

print('(≧^.^≦)喵~~~正在下载：' + picurl + '')

res = requests.get(picurl).content

with open('%s%s.jpg'%(path, i), 'wb') as f:

f.write(res)

print(picsname + 'n下载完成！nn')