Python豆瓣电影数据分析

本文介绍如何使用Python对豆瓣电影数据进行分析，包括获取数据、清洗数据、数据可视化等方面。

一、获取数据

使用Python获取豆瓣电影的数据可以使用豆瓣API接口或者爬虫方法。

下面是一个使用豆瓣API接口获取电影数据的示例代码：

import requests
import json
 
def get_movie_info(movie_id):
   url = f'https://api.douban.com/v2/movie/{movie_id}'
   res = requests.get(url)
   return json.loads(res.text)

上面的代码中，我们通过requests模块向豆瓣API发起请求，并使用json模块对返回结果进行解析。

二、清洗数据

获取到豆瓣电影数据后，需要对数据进行清洗和处理，以便后续分析。

下面是一个使用pandas模块清洗数据的示例代码：

import pandas as pd
 
data = {'name':['Movie A', 'Movie B', 'Movie C'],'score':[8.9, 7.5, 6.2],'director':['Director A','Director B','Director C']}
df = pd.DataFrame(data)
 
# 过滤评分大于8的电影
df = df[df['score'] > 8]
 
# 按照评分排序
df = df.sort_values(by='score', ascending=False)
 
print(df)

在上面的代码中，我们使用pandas模块创建了一个DataFrame对象，并对数据进行了过滤和排序操作。

三、数据可视化

通过数据可视化，可以更直观地展示数据特征和趋势。

下面是一个使用matplotlib和seaborn模块绘制电影评分分布图的示例代码：

import matplotlib.pyplot as plt
import seaborn as sns
 
data = {'name':['Movie A', 'Movie B', 'Movie C'],'score':[8.9, 7.5, 6.2]}
df = pd.DataFrame(data)
 
sns.set(style='whitegrid')
plt.figure(figsize=(10, 5))
sns.histplot(data=df, x='score', bins=10)
plt.title('Movie Score Distribution')
plt.xlabel('Score')
plt.ylabel('Count')
plt.show()

在上面的代码中，我们使用seaborn绘制了电影评分的直方图，并使用matplotlib设置了图形样式和标签。

四、总结

本文介绍了如何使用Python对豆瓣电影数据进行分析，包括获取数据、清洗数据、数据可视化等方面。希望对大家学习Python数据分析有所帮助。