首页 > 编程知识 正文

pandas是什么,r语言求相关系数矩阵

时间:2023-05-04 05:09:03 阅读:115851 作者:4178

相关矩阵也称为相关系数矩阵,是由矩阵各列之间的相关系数构成的。 也就是说,相关矩阵第I行第j列的元素是原矩阵第I列和第j列的相关系数。

定义:

设(X1、X2、x3、 xn )为n维随机变量,存在任意Xi和Xj的相关系数IJ(I、j=1、2、 n ),将以ij为要素的n次矩阵称为该维随机向量的相关矩阵。 标记为r时,即

性质:关联矩阵的对角元素为1。 相关矩阵是对称矩阵。

在python中,可以使用pandas的corr获取相关系数矩阵。 代码如下。

corrdf=full.corr () corrdf输出(仅剪切部分) :

默认情况下,为每行和列对返回人员的相关系数。 通过传递方法的参数,可以传递Kendall's tau或Spearman's秩相关系数(例如. corr ) method='Spearman ' )或. corr ) method='Kendall '

也可以按降序排列相关系数矩阵。 ascending=False表示降序

corr df [ ' survived ' ].sort _ values (ascending=false )的输出:

survived 1.00000 title _ Mrs 0.344935 title _ miss 0.332795 pclass _ 10.285904 family df _ small 0.279855 fare 0.257307 cabin _ b 0.110 652 pclass _ 20.093349 title _ master 0.085221 parch 0.081629 cabin _ f 0.057935 title _ f 0.057935 df size 0.016639 cabin _ g 0.016537940 abin _ t-0.026456 title _ officer-0.031316 sibin ge-0.125147 embarked _ s-0.149683 family df _ single-0.203367 cabin _ s y dtype: float64在建模时需要研究正数是正相关、负数是负相关的相关特性,通常可以选择绝对值为0.1以上的特征进行建模。 如果需要建立强关联模型,请选取更强的关联特征。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。