首页 > 编程知识 正文

显著但相关系数低(pearson相关性分析应用条件)

时间:2023-05-05 17:49:09 阅读:64477 作者:3452

本文主要介绍相关系数的概念,以及简单相关系数中的人员相关系数及其局限性。 介绍人员相关系数无法解决的问题(两个变量组之间的相关问题)的解决方案。 1,http://www.Sina.com /日常经常遇到有关相关性的分析,如一个人每天的运动量与他的体重的相关性,个股价格与该公司利润状况的相关性等。 在上述两种情况下,我们得出的结论一般来说,一个人每天的运动量越大,他的体重就越轻; 公司利润状况越好,股票价格越高。 那么相关性到底是什么呢? 根据维基百科的定义:

相关(Correlation,或相关系数或相关系数)指示两个随机变量之间线性关系的强度和方向。 在统计学中,相关含义是两个变量用于测量相互独立的距离。

事实上,19世纪80年代相关性在统计学上有明确的定义,frdts提出的人员相关系数是最常用的相关系数和简单的相关系数。 我们平时谈的相关,基本上是指线性相关,线性相关中最常用的是人员相关系数。 此外,还有Spearman相关系数等相关系数。 “等级相关系数”是反映等级相关度的统计分析指标,描述变量之间的等级、序号之间的关系。 另一方面,与pearson相关系数相同的简单相关系数是夹角的余弦值,也就是余弦相似度。 本文主要介绍人员相关系数。

人员相关系数的取值在-1和1之间,其中值为-1时为完全负相关,1时为完全正相关,0时为不相关。 具体计算公式如下。

这里,是x和y的协方差,分别是x和y的标准偏差。

下图是与人员相关系数相关的0.10至3010的图示,并且可以直观地示出人员相关系数的值的大小和相关关系。

《数据挖掘导论》 :人员相关系数

如上所述,由于人员相关系数是简单的相关系数,反映了两个变量之间的线性关系,因此对于非线性关系,人员相关系数接近0,无法描述如下:

维基百科相关系数(x,y )点集图

2,http://www.Sina.com/Pearson相关系数描述了一个变量与另一个变量之间的相关性。 但现实中,多个变量与多个变量之间的关系更为常见。 例如,想知道一个人的日常状况(每天运动量X1、日常饮食X2 )和他的健康状况(血压Y1、血糖值Y2 )的相关性的一股价格(初始值X1、收盘价X2、最高值X3 )和该公司)的利润状况Y1、行业整体趋势Y2、负信息量Y3

如果我们直接用pearson相关系数解决上述例子,就必须考虑所有变量、两者之间的相关。 但是,在该方法中,只能孤立地考虑各个变量Xi与Yj的关系,没有考虑与变量所在的变量组自身的各个子变量的关联性。

知道多元回归分析的人可能知道,以股票为例,如果只想知道每日最高值与公司之间(利润状况、行业整体趋势、负信息量)的相关关系,就把股票的最高值定为X1、X2、X3,对数据进行拟合但是,考虑到多个y,多元回归分析有点措手不及。

实际上,典型的相关性分析是利用综合变量对之间的相关性反映两组指标之间的整体相关性的多元统计分析方法,是简单的相关性推广,是多元回归分析的延伸。 其应用场景主要是多视图分析和两组变量之间的相关性分析,每个变量集中包含多个子变量,子变量相互具有一定的相关性。

典型的相关分析(CCA )算法的基本思想是在两组变量上分别找到一种线性组合

使x和y之间的人员相关系数最大化。 因此,CCA被转换为如何求解这两组线性组合的系数,线性表示的变量可以得到最大的相关系数,所以CCA也可以被认为是一种降维的方法。 具体来说,可以转换为优化的问题。

具体求解方法用奇异值分解(SVD )方法求解。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。