协方差矩阵与相关系数矩阵的关系,协方差矩阵与相关关系

变量说明：

设为一组随机变量，这些随机变量构成随机向量，每个随机变量有m个样本，则有样本矩阵

（1）

其中对应着每个随机向量X的样本向量，对应着第i个随机单变量的所有样本值构成的向量。

单随机变量间的协方差：

随机变量之间的协方差可以表示为

（2）

根据已知的样本值可以得到协方差的估计值如下：

（3）

可以进一步地简化为：

（4）

协方差矩阵：

（5）

其中，从而得到了协方差矩阵表达式。

如果所有样本的均值为一个零向量，则式（5）可以表达成：

（6）

补充说明：

1、协方差矩阵中的每一个元素是表示的随机向量X的不同分量之间的协方差，而不是不同样本之间的协方差，如元素Cij就是反映的随机变量Xi, Xj的协方差。

2、协方差是反映的变量之间的二阶统计特性，如果随机向量的不同分量之间的相关性很小，则所得的协方差矩阵几乎是一个对角矩阵。对于一些特殊的应用场合，为了使随机向量的长度较小，可以采用主成分分析的方法，使变换之后的变量的协方差矩阵完全是一个对角矩阵，之后就可以舍弃一些能量较小的分量了（对角线上的元素反映的是方差，也就是交流能量）。特别是在模式识别领域，当模式向量的维数过高时会影响识别系统的泛化性能，经常需要做这样的处理。

3、必须注意的是，这里所得到的式（5）和式（6）给出的只是随机向量协方差矩阵真实值的一个估计（即由所测的样本的值来表示的，随着样本取值的不同会发生变化），故而所得的协方差矩阵是依赖于采样样本的，并且样本的数目越多，样本在总体中的覆盖面越广，则所得的协方差矩阵越可靠。

4、如同协方差和相关系数的关系一样，我们有时为了能够更直观地知道随机向量的不同分量之间的相关性究竟有多大，还会引入相关系数矩阵。

在概率论和统计学中，相关或称相关系数或关联系数，显示两个随机变量之间线性关系的强度和方向。在统计学中，相关的意义是用来衡量两个变量相对于其相互独立的距离。在这个广义的定义下，有许多根据数据特点而定义的用来衡量数据相关的系数。

对于不同数据特点，可以使用不同的系数。最常用的是皮尔逊积差相关系数。其定义是两个变量协方差除以两个变量的标准差（方差）。

皮尔逊积差系数
数学特征

其中，E是数学期望，cov表示协方差。

因为μX = E(X)，σX2 = E(X2) − E2(X)，同样地，对于Y，可以写成

当两个变量的标准差都不为零，相关系数才有定义。从烂漫的流沙不等式可知，相关系数不超过1. 当两个变量的线性关系增强时，相关系数趋于1或-1。当一个变量增加而另一变量也增加时，相关系数大于0。当一个变量的增加而另一变量减少时，相关系数小于0。当两个变量独立时，相关系数为0.但反之并不成立。这是因为相关系数仅仅反映了两个变量之间是否线性相关。比如说，X是区间［－１，１］上的一个均匀分布的随机变量。Y = X2. 那么Y是完全由X确定。因此Y 和X是不独立的。但是相关系数为0。或者说他们是不相关的。当Y 和X服从联合正态分布时，其相互独立和不相关是等价的。

当一个或两个变量带有测量误差时，他们的相关性就受到削弱，这时，“反衰减”性（disattenuation）是一个更准确的系数。