logistic回归分析数据例子,python回归模型分析数据实验报告

Python数据分析项目

——学生成绩预测

一．数据源

阿里云天池公开数据集：学生成绩预测数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=6785

特征(Features)介绍：

Gender: 性别Nationality: 国籍PlaceofBirth：出生地StageID：学校级别（小学，中学，高中）GradeID：年级 (G01 - G12)SectionID: 班级Topic：学科科目Semester: 学期（春学期，秋学期）Relation: 孩子家庭教育负责人（父亲，母亲）RaisedHands: 学生该学期上课举手的次数VisitedResources: 学生浏览在线课件的次数AnnoucementsView: 学生浏览学校公告的次数Discussion: 学生参与课堂讨论的次数ParentAnsweringSurvey: 家长是否填写了关于学校的问卷调查（是，否）ParentSchoolSatisfaction: 家长对于学校的满意度（好，不好）StudentAbsenceDays: 学生缺勤天数（大于7天，低于7天）

结果(Response Variable)介绍：

Class: 根据学生最后的学术评测分数，学生会被分为3个等级Low-Level: 分数区间在0-60Middle-Level:分数区间在70-89High-Level:分数区间在90-100

二．数据预览

import pandas as pd

df=pd.read_csv('datalab/6785/students_data.csv')

df.head()

读了前五行，看看数据情况

三．数据预处理

看看数据是否有缺失值

df.isnull().sum()

没有缺失值

四．描述性统计

df.describe(include='all')

看看类别变量包含的内容：

print('gender',df.gender.unique())

看看数据集结果是否平衡:

import seaborn as sns

sns.countplot(x='Class',data=df)

五．可视化

可视化的目的是为了探索数据规律，发现数据之间的关系，比如特征与目标变量之间的相关性。

可视化可以使用seaborn和matplotlib库进行，不过我不喜欢编程，所有比较喜欢用tableau，类别变量的可视化结果为tableau做的效果。

首先看看类别变量：

性别与得分：

国籍与得分：

班级与得分：

数值型变量：