python爬取网页并生成表格

本文将从以下几个方面详细介绍如何使用Python爬取网页数据并生成表格：

一、获取网页数据

获取网页数据的一般思路是通过HTTP请求获取网页内容，最常用的方式是使用Python库requests。使用requests库发送HTTP请求需要指定请求方法、请求头部、请求参数等。以获取豆瓣电影评分榜单为例，可以使用以下代码：

import requests

url = "https://movie.douban.com/chart"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}
response = requests.get(url, headers=headers)
content = response.text

其中：url是目标网页的URL地址，headers是请求头部，可以增加请求主体的信息。response是服务器返回的HTTP响应，content是响应的主体内容。需要注意的是，豆瓣电影评分榜单是需要登录后才能查看的，因此需要在请求头部中添加Cookie信息。

二、解析网页数据

获得网页内容后，需要解析出需要的数据。在Python中，最常用的解析库是BeautifulSoup和lxml。以获取豆瓣电影评分榜单的电影名称和评分为例，可以使用以下代码：

from bs4 import BeautifulSoup

soup = BeautifulSoup(content, "lxml")
movies = soup.select(".pl2 a")
ratings = soup.select(".rating_nums")
for movie, rating in zip(movies, ratings):
    print(movie.text, rating.text)

其中，soup变量是将网页内容解析为BeautifulSoup对象的结果，"lxml"是使用lxml解析器解析网页内容。movies和ratings是使用CSS选择器选取的电影和评分。通过Python的zip函数将电影和评分一一对应输出。

三、生成表格

获得需要的数据之后，可以通过Python库pandas将其保存为表格形式。以保存豆瓣电影评分榜单的电影名称和评分为例，可以使用以下代码：

import pandas as pd

data = {"电影名称": [movie.text for movie in movies], "评分": [rating.text for rating in ratings]}
df = pd.DataFrame(data)
df.to_excel("douban_movies.xlsx", index=False)

其中，data是包含电影名称和评分的字典，df是将data转换为DataFrame对象的结果。to_excel方法可以将DataFrame保存为Excel文件，以便后续分析使用。

四、完整代码

import requests
from bs4 import BeautifulSoup
import pandas as pd

url = "https://movie.douban.com/chart"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3",
    "Cookie": ""}
response = requests.get(url, headers=headers)
content = response.text

soup = BeautifulSoup(content, "lxml")
movies = soup.select(".pl2 a")
ratings = soup.select(".rating_nums")

data = {"电影名称": [movie.text for movie in movies], "评分": [rating.text for rating in ratings]}
df = pd.DataFrame(data)
df.to_excel("douban_movies.xlsx", index=False)

五、总结

本文主要介绍了如何使用Python爬取网页数据并生成表格。具体来说，我们可以使用requests库获取网页内容，使用BeautifulSoup或lxml解析网页内容，使用pandas保存解析出来的数据为表格。掌握了这些技能，我们就可以快速地获取需要的数据，并对其进行分析处理。