pearson correlation coefficient(皮尔森相关系数应用)

定义物理意义的皮尔逊距离机器学习中的APP应用代码的实现

概要

皮尔逊相关系数又称皮尔逊积矩相关系数(Pearson product-momentcorrelationcoefficient )，是线性相关系数，是最常用的相关系数。标记为r，用于反映两个变量x和y的线性相关程度。 r的值在-1和1之间，绝对值越大表示相关性越强。

定义综合相关系数作为两个变量x、y间的协方差和两者的标准偏差的乘积之比，定义如下。

估计样本的协方差和标准差，得到样本相关系数(即样本皮尔逊相关系数)，一般用r表示。

r也可以根据(Xi，Yi )采样点的标准分数平均来估计与上式等价的公式。

其中，是Xi样本的标准点数、样本平均值和样本标准偏差，n是样本数。

物理语义皮尔逊相关系数反映了两个变量线性相关的强弱，r的绝对值越大，表示相关越强。

r0表示两个变量呈正相关，一个变量的值越大，另一个变量的值也越大。 r0表示两个变量呈负相关。也就是说，一个变量的值越大，另一个变量的值反而越小。 r=0表示两个变量不是线性相关。 (请注意，它是非线性相关的。 )但是，可能与曲线方式等其他方式有关联。如果r=1和-1，则两个变量x和y可以很好地用线性方程描述，这意味着所有采样点都很好地落在直线上。皮尔森距离由皮尔森系数定义：

皮尔逊系数范围为[-1，1 ]，因此皮尔逊距离范围为[ 0，2 ]。

机器学习的应用皮尔逊相关系数、皮尔曼相关系数、肯德尔相关系数被称为统计学三大相关系数。其中，spearman和kendall为等级相关系数，又称“秩相关系数”，是反映等级相关程度的统计分析指标。人员是反映两变量之间相似度的统计量，机器学习可以计算特征和类之间的相似度，可以判断提取的特征和类是正相关、负相关还是不相关。

人员相关系数的计算方法有以下三种形式。

皮尔逊相关系数测量线性相关性的程度，一个p的几何解释是表示在两个变量的可能值基于平均值集中之后构建的向量之间的角度的余弦。

代码python实现表达式3的代码：

defPearson(vector1， vector2(:n=len(vector2) simplesumssum1) sum ) float ) vector1[I]forIinrange ) sum2=sum ) float (vlo at ) 2.0 ) for v in vector1] ) sum2_pow=sum(pow ) v，2.0 ) for v in vector2]) ) sumuptheproductsp _ sum=sum ([ vector1[ 分母dennum=p_sum-(sum1*sum2/n ) den=math.sqrt ) (sum1_pow-pow ) sum 1，2 )/n ) sum2_ pow-pow (sum

#特征和类的平均值defcalcmean(x，y ) : sum_x=sum(x ) x ) sum_y=sum(y ) n=len(x ) x_mean=float ) sum _ x y_mean=calcMean(x ) x，y ) #计算x， y向量平均值n=len(x ) sumtop=0.0 sum bottom=0.0x _ pow=0.0y _ pow=0.0 foriinrange (n ) :sumtop=) x [ I ]-x _ mow 2 ) for i in range(n ) n ) :y_pow=math.pow ) y[I]-y_mean， 2 ) sum bottom=math.sqrt (x _ pow * y _ pow ) p=sumTop/sumBottom return p#计算并排列每个特性的人员系数* n # )初始化特征x和类别y向量y=[0] * n for i in range(n ) n ) : # )以获得类别向量y(I )=数据(I ) m-1 : #各个特征的向量存储在forkinrange(n ) : # )=dataset ) k ) [ j ] prr.append (calc spearman )，y )中