多变量表,多变量表示法

单变量、多变量分析绘图

1、单变量分析绘图单变量其实就是我们通常接触到的数据集中的一列数据单变量分析是数据分析中最简单的形式，其中被分析的数据只包含一个变量，因为它是一个单一的变量，它不处理原因或者关系单变量分析的主要目的是描述数据并找出其中存在的模式，也就是“用最简单的概括形式反映出大量数据资料所容纳的基本信息”。连续型数据：连续型数据一般应用在计算机领域，在数据挖掘、数据分类时会遇到此类数据，因其数据不是单独的整十整百的数字，包含若干位小数且取值密集，故称为连续型数据，例如，身高、体重、年龄等都是连续变量离散型数据：由记录不同类别个体的数目所得到的数据，称为离散型数据从正态分布中随机获取N个数值 random是numpy模块的中的随机模块，random中的normal函数可以随机获取N个数值 numpy.random.normal(size=N) 在seaborn里最常用的观察单变量分布的函数是distplot()，默认地，这个函数会绘制一个直方图，并拟合一个核密度估计 import seaborn as sns sns.distplot(data, bins, hist = True, kde = True) data参数记录绘图所用的数据，而bins参数在绘制直方图时可以进行设置，用于设置分组的个数，默认值时，会根据数据的情况自动分为n个组，若是想指定分组的个数，可以设置该参数，然后计算我们可以增加其数量，来看到更为详细的信息 hist和kde参数用于调节是否显示直方图及核密度估计图，默认hist、kde均为True，表示两者都显示。我们可以通过修改参数为False选择是否将其中之一去掉示例： %matplotlib inline import numpy as np import seaborn as sns # 从标准正态分布中随机地抽取1000个数 data = np.random.normal(size=1000) sns.set(style='darkgrid') sns.distplot(data,kde=True) 在上面的结果中，横轴表示数据点的取值，纵轴表示概率密度值。该结果中使用直方图描述了数据的分布：将数据分成若干个组，用柱形的高度记录每组中数据所占比率。但是，在这个图中大家还会发现比我们之前学习的柱状图多一个曲线。这条曲线叫做概率密度曲线。就是采用平滑的峰值函数来拟合观察到的数据点，从而对真实的概率分布进行模如果我们只想要显示概率密度曲线，不想显示柱状图，我们也可以使用sns.kdeplot()函数绘制数据的概率密度曲线图 sns.kdeplot(data1, data2, shade = False) shade参数用于设置图像下方的部分是否设置阴影，默认值为False，表示不绘制阴影示例： %matplotlib inline import numpy as np import seaborn as sns data = np.random.normal(size=1000) sns.set(style='darkgrid') sns.kdeplot(data, shade = True) 以上就是连续数值型单变量数据常见的可视化方法，我们常会使用到直方图、核密度图来描述数据的分布。在Seaborn中也集成了这两种图像，使用sns.distplot()函数可以将它们绘制在同一张图中2、双变量联合分布图有时候不仅需要查看单个变量的分布，也需要查看变量之间的联系，往往还需要进行预测，这就需要使用双变量联合分布了在Seaborn中使用函数绘制连续数值型双变量我们使用sns.jointplot() seaborn.jointplot(x, y, data=None, kind='scatter') x、y：分别记录x轴和y轴的数据名称。 data：数据集，data的数据类型为DataFrame。 kind：用于设置图像的类型，可选的类型有：'scatter' | 'reg' | 'resid' | 'kde' | 'hex'，分别表示散点图、回归图、残差图、核密度图和蜂巢图。现在我们同样使用np.random.normal()函数创建一个含有两列数据的DataFrame，然后根据该数据绘制双变量散点图示例： import seaborn as sns import numpy as np import pandas as pd # 创建dataframe: df df = pd.DataFrame({'x': np.random.normal(size=500), 'y': np.random.normal(size=500)}) print(df)3、多变量联合分布图我们在做数据分析时面对的数据集中往往有很多列数据，在我们还没有确定针对哪两个变量进行挖掘的时候，比较稳妥的做法就是将数据中的每两列都考虑一次，做一个完整的变量关系可视化绘制连续数值型多变量关系分布图,可以使用seaborn中的pairplot()方法 sns.pairplot( data, hue, vars, kind, diag_kind) 参数介绍 data表示绘图所用到的数据集 hue参数表示按照某个字段进行分类 vars参数可以用于筛选绘制图像的变量，用列表的形式传入列名称 kind参数用于设置变量间图像的类型，可以选择'scatter'散点图，或者 'reg'回归图 diag_kind用于设置对角线上的图像类型，可以选择'hist'直方图，或者'kde'核密度图