首页 > 编程知识 正文

Python豆瓣电影数据分析

时间:2023-11-19 17:20:51 阅读:292522 作者:ULLL

本文介绍如何使用Python对豆瓣电影数据进行分析,包括获取数据、清洗数据、数据可视化等方面。

一、获取数据

使用Python获取豆瓣电影的数据可以使用豆瓣API接口或者爬虫方法。

下面是一个使用豆瓣API接口获取电影数据的示例代码:

import requests
import json
 
def get_movie_info(movie_id):
   url = f'https://api.douban.com/v2/movie/{movie_id}'
   res = requests.get(url)
   return json.loads(res.text)

上面的代码中,我们通过requests模块向豆瓣API发起请求,并使用json模块对返回结果进行解析。

二、清洗数据

获取到豆瓣电影数据后,需要对数据进行清洗和处理,以便后续分析。

下面是一个使用pandas模块清洗数据的示例代码:

import pandas as pd
 
data = {'name':['Movie A', 'Movie B', 'Movie C'],'score':[8.9, 7.5, 6.2],'director':['Director A','Director B','Director C']}
df = pd.DataFrame(data)
 
# 过滤评分大于8的电影
df = df[df['score'] > 8]
 
# 按照评分排序
df = df.sort_values(by='score', ascending=False)
 
print(df)

在上面的代码中,我们使用pandas模块创建了一个DataFrame对象,并对数据进行了过滤和排序操作。

三、数据可视化

通过数据可视化,可以更直观地展示数据特征和趋势。

下面是一个使用matplotlib和seaborn模块绘制电影评分分布图的示例代码:

import matplotlib.pyplot as plt
import seaborn as sns
 
data = {'name':['Movie A', 'Movie B', 'Movie C'],'score':[8.9, 7.5, 6.2]}
df = pd.DataFrame(data)
 
sns.set(style='whitegrid')
plt.figure(figsize=(10, 5))
sns.histplot(data=df, x='score', bins=10)
plt.title('Movie Score Distribution')
plt.xlabel('Score')
plt.ylabel('Count')
plt.show()

在上面的代码中,我们使用seaborn绘制了电影评分的直方图,并使用matplotlib设置了图形样式和标签。

四、总结

本文介绍了如何使用Python对豆瓣电影数据进行分析,包括获取数据、清洗数据、数据可视化等方面。希望对大家学习Python数据分析有所帮助。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。