首页 > 编程知识 正文

python求皮尔逊相关系数,皮尔逊相关系数分析数据的优缺点

时间:2023-05-03 20:17:38 阅读:284031 作者:2012

一、理论知识:

 

要理解 Pearson 相关系数,首先要理解协方差(Covariance)。协方差表示两个变量 X,Y 间相互关系的数字特征,其计算公式为:

当 Y = X 时,即与方差相同。当变量 X,Y 的变化趋势一致时,如果某个 Xi 大于 X¯,相应的 Yi 也大于 Y¯;如果某个 Xi小于 X¯,相应的 Yi 也小于¯Y¯,那么 COV(X,Y)COV(X,Y) 就是正值,当变量 X,Y 的变化趋势相反时,那么 COV(X,Y)COV(X,Y) 就是负值。

 

Pearson 相关系数公式如下:

由公式可知,Pearson 相关系数是用协方差除以两个变量的标准差得到的,虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关),但其数值上受量纲的影响很大,不能简单地从协方差的数值大小给出变量相关程度的判断。为了消除这种量纲的影响,于是就有了相关系数的概念。

当相关系数为1时,成为完全正相关;当相关系数为-1时,成为完全负相关;相关系数的绝对值越大,相关性越强;相关系数越接近于0,相关度越弱。

二、函数:Pearsonr(x,y)

1)输入:x为特征,y为目标变量.

 2)输出:r: 相关系数 [-1,1]之间,p-value: p值。

注: p值越小,表示相关系数越显著,一般p值在500个样本以上时有较高的可靠性。

三、python实现Pearson correlation coefficient ############导包#################import numpy as npfrom scipy.stats import pearsonrimport csv############导入数据#############Housing_dataset = np.loadtxt('./dataset/Housing_dataset03.csv',delimiter=",",skiprows=1)############切分数据#############X = Housing_dataset[:,1:-1]y = Housing_dataset[:,-1:]print(X.shape)print(y.shape)#############Pearsonr分析#########for i in range(0,13,1): x = X[:,i].reshape(-1,1) print(x.shape) #------------pearsonr(x,y)------------- result = pearsonr(x,y) #------------保存结果-------------------- with open('./dataset/Pearsonr_dataset03.csv','a+',encoding='GB18030',newline="")as file_write: result_writer = csv.writer(file_write) result_writer.writerow(result)

Reference:

https://blog.csdn.net/huangfei711/article/details/78456165

https://blog.csdn.net/zhouwenyuan1015/article/details/65938847

极速赛车买前5名的方法切分数据#############X = Housing_dataset[:,1:-1]y = Housing_dataset[:,-1:]print(X.shape)print(y.shape)#############Pearsonr分析#########for i in range(0,13,1): x = X[:,i].reshape(-1,1) print(x.shape) #------------pearsonr(x,y)------------- result = pearsonr(x,y) #------------保存结果-------------------- with open('./dataset/Pearsonr_dataset03.csv','a+',encoding='GB18030',newline="")as file_write: result_writer = csv.writer(file_write) result_writer.writerow(result)

Reference:

https://blog.csdn.net/huangfei711/article/details/78456165

https://blog.csdn.net/zhouwenyuan1015/article/details/65938847

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。