Python爬虫怎么爬图片？

本文将从以下几个方面，详细阐述如何使用Python爬虫爬取图片，并提供完整的代码示例进行演示。

一、请求网页

在开始爬取图片之前，我们需要先请求目标网页。这里我们可以使用Python的requests库进行请求。

import requests

url = "https://www.example.com"
response = requests.get(url)

content = response.text

print(content)

以上是请求网页的基本代码。其中，url变量代表目标网页的链接，response变量为请求得到的响应。调用response的text属性可以将响应内容转化为字符串。

二、解析网页

请求到目标网页的内容后，我们需要从中提取出图片链接。这可以通过Python的BeautifulSoup库解析HTML文档来实现。需要注意的是，不同的网页结构可能有所不同，对应的解析代码也会有所区别。

from bs4 import BeautifulSoup

# 假设标签内的图片链接为"https://www.example.com/images/example.jpg"
html_doc = "<html><body><img src='https://www.example.com/images/example.jpg'></body></html>"

soup = BeautifulSoup(html_doc, 'html.parser')
tag = soup.find('img')
img_url = tag.get('src')

print(img_url)

以上是解析图片链接的基本代码。其中，html_doc变量代表请求到的网页内容，'html.parser'用于指定解析器，soup变量为解析后的结果。通过调用find方法找到第一个标签，再通过get方法获取其中的src属性，就可以得到图片链接。

三、下载图片

得到图片链接后，我们还需要将图片保存到本地。这可以通过Python的urllib库实现。

import urllib.request

img_url = "https://www.example.com/images/example.jpg"
urllib.request.urlretrieve(img_url, 'example.jpg')

以上是下载图片的基本代码。其中，img_url变量代表图片链接，urlretrieve方法将图片保存至本地，并以example.jpg命名。

四、自动化爬虫

以上代码可以帮助我们实现单个网页的图片爬取，但如果我们需要对多个网页进行图片爬取，则需要对代码进行修改。为了实现更加高效、自动化的爬虫，我们可以将代码封装成一个函数进行调用。

import requests
from bs4 import BeautifulSoup
import urllib.request

def download_images(url):
    response = requests.get(url)
    content = response.text
    soup = BeautifulSoup(content, 'html.parser')
    tags = soup.find_all('img')

    for tag in tags:
        img_url = tag.get('src')
        file_name = img_url.split('/')[-1]
        urllib.request.urlretrieve(img_url, file_name)

download_images('https://www.example.com')

以上是自动化爬虫的基本代码。函数download_images接收一个参数url，表示目标网页的链接。代码首先请求网页，再解析出其中所有的图片链接，并逐个下载保存至本地。