python爬虫爬取网上的照片（python爬取图片代码）

本文目录一览：

1、Python爬虫爬取图片这个报错怎么处理？
2、如何用python爬虫通过搜索获取某站上的商品图片
3、Python如何爬取百度图片？
4、python3 爬取图片异常的原因？
5、python爬虫可以爬视频吗
6、Python爬虫爬取图片问题用正则规则匹配到一个网页的所有图片的网址规则，请问如何用遍历把正则

Python爬虫爬取图片这个报错怎么处理？

你好！你的错误原因在于html页面获取到的img标签src属性中的链接，可能是因为src中的url格式是这样的：

img src="//hao123.com/xxx/xxx/xxx/"/img

这样获取到的链接都没有带上协议：http或者https。而导致程序抛出ValueError的错误异常。

因为正常的url格式应该类似这样的：

即协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志

参考网页链接

可将代码中第一个for循环中download_links.append修改为：

for pic_tag in soup.find_all('img'):

pic_link = pic_tag.get('src')

download_links.append('http:' + pic_link)

如何用python爬虫通过搜索获取某站上的商品图片

一般用raw_input，input会执行一次求值，一般不是想要的效果。

urlopen，貌似需要自己手动进行url编码，否则中文参数请求会失败。

Python如何爬取百度图片？

几乎所有的网站都会有反爬机制，这就需要在爬取网页时携带一些特殊参数，比如：user-agent、Cookie等等，可以在写代码的时候用工具将所有参数都带上。

python3 爬取图片异常的原因？

我们在下载文件时，一会会采取urlretrieve或是requests的get方式，

from urllib.request import urlretrieve

urlretrieve(self.url, filename="xxx.png")

但对于连续下载，各个文件保存是需要时间的，而程序运行永运是快于存储的，我怀疑这是水管里流水速度与缸的大小不合适的原因，那可以试试下面这种方式：

r = requests.get(url, stream=True)

with open(local_filename, 'wb') as f:

for chunk in r.iter_content(chunk_size=1024):

if chunk: # filter out keep-alive new chunks

f.write(chunk)

f.flush()

python爬虫可以爬视频吗

当然可以，网上的一切资源皆为数据，爬虫都可以爬取，包括文件、视频、音频、图片等。

Python爬虫爬取图片问题用正则规则匹配到一个网页的所有图片的网址规则，请问如何用遍历把正则

# encoding: UTF-8

import re

# 将正则表达式编译成Pattern对象

pattern = re.compile(r'img[^]*src[="']+([^"']*)["'][^]*', re.I)

# 使用search()查找匹配的子串，不存在能匹配的子串时将返回None

match = pattern.search('hello world!')

if match:

# 使用Match获得分组信息

print match.group(1)