Python爬虫经典例子用法介绍

Python爬虫是一种非常有用的技术，通过网络爬虫，我们可以收集到大量的数据，进行数据分析、机器学习等，这给大家的工作和学习带来了很大提升。本篇文章主要介绍Python爬虫经典例子，帮助大家更好地了解爬虫的实现和应用场景。

一、requests爬取网页内容

requests是Python中常用的HTTP库，可以用于发送网络请求，从而得到需要的网页内容。如下是一个简单的GET请求的例子：

import requests

url = 'https://www.baidu.com'
res = requests.get(url)
print(res.text)

上述代码通过GET请求，获取了百度首页的源代码，并将其打印出来。

requests还有一些其他的常用方法，如POST请求、添加请求头、设置代理、登录和Session管理等。这些方法都可以在实际应用中方便地使用。

二、BeautifulSoup解析HTML

BeautifulSoup是Python中的HTML解析库，可以将HTML文本转化为树形结构，并提供了强大的搜索和修改功能。如下是一个简单的例子：

from bs4 import BeautifulSoup

html = '<html><body><div class="test"><p>hello world</p></div></body></html>'
soup = BeautifulSoup(html, 'html.parser')
tag = soup.p
print(tag.string)

上述代码将一个HTML文本转化为BeautifulSoup对象，并通过选择器获取到p标签的内容。

在实际应用中，使用BeautifulSoup可以很方便地解析HTML文本，提取需要的信息，并进行必要的数据清洗。

三、Selenium模拟浏览器行为

Selenium是一种自动化测试工具，也可以用于模拟浏览器行为，如点击链接、填写表单、获取网页源代码等。如下是一个简单的例子：

from selenium import webdriver

url = 'https://www.baidu.com'
browser = webdriver.Chrome()
browser.get(url)
print(browser.page_source)
browser.close()

上述代码通过Chrome浏览器访问百度网页，获取了网页的源代码，并将其打印出来。

Selenium可以模拟人类在浏览器中的一些操作，如点击、滚动、鼠标移动等。这对于某些特定场景下的爬虫程序非常有用。

四、Scrapy框架构建爬虫项目

Scrapy是一个Python的Web爬虫框架，可以用于构建灵活、高效的爬虫项目。可以通过定义爬虫规则、爬取深度、设置请求头、处理响应等功能，比纯Python代码更加简洁明了。

下面是一个Scrapy爬虫的简单例子：

import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    start_urls = ['https://www.baidu.com/']

    def parse(self, response):
        pass

上述代码通过继承Scrapy提供的Spider基类，并定义代表爬虫的名称和入口URL，即可在parse方法中进行信息的提取、清洗和存储。

Scrapy框架提供了丰富的工具和组件，可以使得爬虫项目的编写和维护更加简单和高效。

五、多线程/协程加速爬虫

爬虫程序往往需要发送大量的网络请求，网络I/O是性能瓶颈。因此，可以使用多线程或协程提高爬虫程序的效率。

如下是一个使用协程加速请求的例子：

import aiohttp
import asyncio

async def fetch(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as resp:
            return await resp.text()

async def main():
    urls = [
        'https://www.baidu.com',
        'https://www.cnblogs.com',
        'https://www.zhihu.com'
    ]
    tasks = [fetch(url) for url in urls]
    htmls = await asyncio.gather(*tasks)
    print(htmls)

if __name__ == '__main__':
    loop = asyncio.get_event_loop()
    loop.run_until_complete(main())

上述代码通过使用aiohttp和asyncio库，实现了异步请求，可以快速地并发获取多个网页的源代码。

多线程和协程都可以用于爬虫程序的优化，具体选择哪种方式需要根据实际情况进行判断和调整。