简单数据可视化最近有不少人私信问我数据可视化的图怎么画的?让我开源一下代码。这里我就简单演示一些最基础在数据挖掘过程中用得最多的几个数据可视化方法,希望可以帮助更多的人。
说明:可视化数据集采用上一民宿预测项目数据集!
1.对数据集进行缺失值统计:
PLT.figure (fig size=(10,10 ) ) missing=train.isnull ).sum )/len ) train ) missing=missing[missing 0] #
当然,你也可以画画可视化。 效果图如下。
请注意,上述是效果图,有很多可以自己设定。 另外,前两个属性的缺失值比例小,所以图像比例小时看不到。 可以放大图像的比例来看。
2.查看数据分布情况:
培训数据集和测试数据集示例:
test=PD.read _ CSV (test _ no label.CSV ) ) train=PD.read _ CSV (train _ ZJ.CSV ) #出图PLT.figure ) fig shabel
以上是对数据分布的简单比较。
3.通过FacetGrid函数进行数据可视化:
(绘图x=SNS.facetgrid(train ) x.fig.set_size_inches ) 6,4 )注意,这里调整图元大小的方法发生了变化。 因为plt.figure方法无法控制图形的大小和分辨率,所以可以使用此方法调整图形的大小
FacetGrid函数的优点在这里没有体现出来。 FacetGrid函数可以通过比较选定属性的不同值来查看其他不同属性的分布。
4.相关性分析:
相关分析一般在热力图上调查
PLT.figure(figsize=(20, 20 ) )绘制对象的宽度和高度colnm=train.columns.tolist ) )列表开头的mcorr=train[colnm].corr ) methorr ),即任意两个变量之间dype=NP.bool(#mcorr构建同维度矩阵的原因是bool类型mask[NP.triu_indices_from () mask]=true#角线的右侧为true # cmap=sndices 返回matplotlibcolormap对象g=SNS.heatmap(mcorr,mask=mask,square=True,annot=True,fmt='0.5f )
从上图可以看出各属性之间相关的强弱。
总结:对于一般结构化数据的可视化通过以上的方法基本可以更快地了解数据,如果涉及更加复杂的数据探索,可以采用更多的方法对数据进行可视化,这里就不再介绍。