首页 > 编程知识 正文

多变量表,多变量表示法

时间:2023-05-04 21:34:34 阅读:193800 作者:1229

单变量、多变量分析绘图

 

1、单变量分析绘图 单变量其实就是我们通常接触到的数据集中的一列数据 单变量分析是数据分析中最简单的形式,其中被分析的数据只包含一个变量,因为它是一个单一的变量, 它不处理原因或者关系 单变量分析的主要目的是描述数据并找出其中存在的模式,也就是“用最简单的概括形式反映出大量数据 资料所容纳的基本信息”。 连续型数据: 连续型数据一般应用在计算机领域,在数据挖掘、数据分类时会遇到此类数据,因其数据不是单独的 整十整百的数字,包含若干位小数且取值密集,故称为连续型数据,例如,身高、体重、年龄等都是连续变量 离散型数据: 由记录不同类别个体的数目所得到的数据,称为离散型数据 从正态分布中随机获取N个数值 random是numpy模块的中的随机模块,random中的normal函数可以随机获取N个数值 numpy.random.normal(size=N) 在seaborn里最常用的观察单变量分布的函数是distplot(),默认地,这个函数会绘制一个直方图,并拟合一 个核密度估计 import seaborn as sns sns.distplot(data, bins, hist = True, kde = True) data参数记录绘图所用的数据,而bins参数在绘制直方图时可以进行设置,用于设置分组的个数,默认值时, 会根据数据的情况自动分为n个组,若是想指定分组的个数,可以设置该参数,然后计算我们可以增加其数量, 来看到更为详细的信息 hist和kde参数用于调节是否显示直方图及核密度估计图,默认hist、kde均为True,表示两者都显示。 我们可以通过修改参数为False选择是否将其中之一去掉 示例: %matplotlib inline import numpy as np import seaborn as sns # 从标准正态分布中随机地抽取1000个数 data = np.random.normal(size=1000) sns.set(style='darkgrid') sns.distplot(data,kde=True) 在上面的结果中,横轴表示数据点的取值,纵轴表示概率密度值。 该结果中使用直方图描述了数据的分布:将数据分成若干个组,用柱形的高度记录每组中数据所占比率。 但是,在这个图中大家还会发现比我们之前学习的柱状图多一个曲线。 这条曲线叫做概率密度曲线。就是采用平滑的峰值函数来拟合观察到的数据点,从而对真实的概率分布进行模 如果我们只想要显示概率密度曲线,不想显示柱状图,我们也可以使用sns.kdeplot()函数绘制数据的概率密度曲线图 sns.kdeplot(data1, data2, shade = False) shade参数用于设置图像下方的部分是否设置阴影,默认值为False,表示不绘制阴影 示例: %matplotlib inline import numpy as np import seaborn as sns data = np.random.normal(size=1000) sns.set(style='darkgrid') sns.kdeplot(data, shade = True) 以上就是连续数值型单变量数据常见的可视化方法,我们常会使用到直方图、核密度图来描述数据的分布。 在Seaborn中也集成了这两种图像,使用sns.distplot()函数可以将它们绘制在同一张图中2、双变量联合分布图 有时候不仅需要查看单个变量的分布,也需要查看变量之间的联系,往往还需要进行预测,这就需要使用双变 量联合分布了 在Seaborn中使用函数绘制连续数值型双变量我们使用sns.jointplot() seaborn.jointplot(x, y, data=None, kind='scatter') x、y:分别记录x轴和y轴的数据名称。 data:数据集,data的数据类型为DataFrame。 kind:用于设置图像的类型,可选的类型有:'scatter' | 'reg' | 'resid' | 'kde' | 'hex',分别表 示散点图、回归图、残差图、核密度图和蜂巢图。 现在我们同样使用np.random.normal()函数创建一个含有两列数据的DataFrame,然后根据该数据绘制双变量 散点图 示例: import seaborn as sns import numpy as np import pandas as pd # 创建dataframe: df df = pd.DataFrame({'x': np.random.normal(size=500), 'y': np.random.normal(size=500)}) print(df)3、多变量联合分布图 我们在做数据分析时面对的数据集中往往有很多列数据,在我们还没有确定针对哪两个变量进行挖掘的时候,比 较稳妥的做法就是将数据中的每两列都考虑一次,做一个完整的变量关系可视化 绘制连续数值型多变量关系分布图,可以使用seaborn中的pairplot()方法 sns.pairplot( data, hue, vars, kind, diag_kind) 参数介绍 data表示绘图所用到的数据集 hue参数表示按照某个字段进行分类 vars参数可以用于筛选绘制图像的变量,用列表的形式传入列名称 kind参数用于设置变量间图像的类型,可以选择'scatter'散点图,或者 'reg'回归图 diag_kind用于设置对角线上的图像类型,可以选择'hist'直方图, 或者'kde'核密度图

                                           

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。