Python爬虫初级到精通3

本文将从多个方面详细阐述Python爬虫初级到精通的过程。

一、爬虫基础知识

1、了解HTTP协议以及常见的请求方法GET和POST。

import requests

# 发送GET请求
response = requests.get(url)
print(response.text)

# 发送POST请求
data = {"key1": "value1", "key2": "value2"}
response = requests.post(url, data=data)
print(response.text)

2、掌握HTML基础知识，了解HTML标签的结构和常见元素的用法。

<html>
<head>
    <title>标题</title>
</head>
<body>
    <h1>Hello, world!</h1>
    <p>这是一个段落</p>
</body>
</html>

3、学习XPath和CSS选择器，用于提取HTML页面中的数据。

from lxml import etree

html = '''
<div class="content">
    <h1>标题</h1>
    <p>内容1</p>
    <p>内容2</p>
</div>
'''

# 使用XPath提取数据
tree = etree.HTML(html)
title = tree.xpath('//h1/text()')
content = tree.xpath('//div[@class="content"]/p/text()')
print(title)
print(content)

二、进阶技巧

1、使用正则表达式对页面进行匹配和提取。

import re

html = '''
<h1>标题</h1>
<p>内容1</p>
<p>内容2</p>
'''

pattern = '<h1>(.*?)</h1>'
title = re.findall(pattern, html)
print(title)

2、处理动态加载的页面，如使用Selenium模拟浏览器操作。

from selenium import webdriver

driver = webdriver.Chrome()
driver.get(url)
driver.find_element_by_name('username').send_keys('username')
driver.find_element_by_name('password').send_keys('password')
driver.find_element_by_id('submit').click()

3、使用代理IP和User-Agent进行反反爬虫。

import requests

proxies = {'http': 'http://127.0.0.1:8888',
           'https': 'https://127.0.0.1:8888'}
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'}

response = requests.get(url, proxies=proxies, headers=headers)
print(response.text)

三、高级应用

1、使用多线程或异步进行并发爬取。

import asyncio
import aiohttp

async def fetch(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            return await response.text()

async def main():
    tasks = []
    urls = ['http://example.com', 'http://example.org']
    for url in urls:
        tasks.append(fetch(url))
    results = await asyncio.gather(*tasks)
    print(results)

if __name__ == '__main__':
    asyncio.run(main())

2、使用数据库对爬虫数据进行存储和管理。

import sqlite3

conn = sqlite3.connect('data.db')
cursor = conn.cursor()
cursor.execute('CREATE TABLE IF NOT EXISTS data (id INT PRIMARY KEY, title TEXT, content TEXT)')
conn.commit()

id = 1
title = '标题'
content = '内容'
cursor.execute('INSERT INTO data VALUES (?, ?, ?)', (id, title, content))
conn.commit()

cursor.execute('SELECT * FROM data')
results = cursor.fetchall()
print(results)

conn.close()

3、构建自己的爬虫框架，根据需求进行定制化开发。

class Spider:
    def __init__(self, url):
        self.url = url

    def start(self):
        # 爬取逻辑

spider = Spider('http://example.com')
spider.start()

四、总结

本文通过对Python爬虫初级到精通的过程进行详细阐述，希望能对读者在学习和实践中有所帮助。