n维球体积公式推导

这是为了回答

有没有大神能通俗易懂地不照搬百度地解释一下算标准差分母那个n-1自由度的概念？www.zhihu.com

通俗易懂？那肯定是说不清的！因为这本来就是数学问题。。。

首先你需要正确理解什么是自由度。

所谓自由度呢，直观上来说，是指其值可以自由变化的变量的个数。如果有n个自由变化的随机变量，哪怕他们之间是相关的，只要任意两个之间相关性不为1或者-1，这个系统的自由度也是n。（其实准确的描述是，他们的协方差矩阵如果是full rank的）

举例子：X是n维随机向量，如果它的协方差矩阵是full rank的，它的自由度就是n。

然后，假设 y=a’X，a是一个常数向量，y成了标量，y的自由度是1。

再然后，假设 z=AX，z的自由度是A的rank数。

现在考虑这种情况，如果有n个可以自由变化的随机变量，这组随机变量有一个实例realization出现，你能观察到这个realization，并且取了一个平均数。目前为止，这并不影响这组随机变量的自由度。但是！考虑以下问题：

如果在确保这组realization的平均数为定值constant的前提下，自由度还能是n吗？答案是n-1。为什么？在任意n-1自由变化的前提下，由于平均数是定值，所以剩下的那个变成固定值了。

其实这个适用于以下这种情况（最常见的）。

如果你想象中有一个随机变量X，这是你不可观测的，而你能看到的，只是它反复抽取的n个实例，这n个实例的平均数（作为一个统计量）往往被看作是该随机变量的期望值E(X)的估计值，那么就把它看作那个期望值E(X)，应该差不了多少（大数定理）。在已知期望值的条件下去估计方差和标准差，你要用到单个实例减去期望值的平方和，然后除以几呢？

当然可以除以个数n，如果期望值是真实的话，应该除以自由变化的个数n，这样的话，方差是无偏的，很容易证明。

在这个公式里，请注意，每一项

其中

是真实的error，这是由最开始我们假设的模型决定的

也就是说，每一个实例X_i都是由相同的期望值加上一个不同的且不可见的error。我们要估计的方差呢？其实是

的方差。

所以上面那个式子也可以写成

无偏，没有任何问题。

问题在这里：期望值E(X)是未知的！期望值在上面的式子里被其估计值替代了，而估计值也是个随机变量的实例。。。

上面的那个式子就要变成

为了能了解为什么要用自由度n-1而不是实例个数n，我们就要深入探讨这个公式了。。。

首先介绍矩阵和向量的表达式

其中X Z 和E都是大向量，X包含所有

，E包含所有，而Z都是1。请对号入座保持等式正确性。

平均数

其实是这么算的：

这是最小二乘法。而残差residual则为

这个自己推吧。。。不难。其中

关于Z的等幂矩阵。而里每一项都是残差，并且被用在估计方差上了，

好，真正的关键来了。这个等幂矩阵

不是full rank的！虽然是n乘以n的大矩阵，但是它的rank是n-1！

这意味着什么？这意味着，残差项（也就是你用来估计方差的，就是这些

，有n个）虽然是真实error E的n个线性组合，但是实际上只用了n-1个error的有效信息。

回想一下一开始提到的AX，A的rank决定自由度的例子～

直观了吧？你如果用期望值的估计值来计算方差，其中只包含了n-1个error的有效信息。

所以无偏的方差估计量是：残差的平方和除以真正意义上自由变化的残差个数（残差的自由度）。

如果想通俗易懂的表达，该怎么表达呢？或者说，为了V(X)无偏，该怎么办呢？这么表达：

答案是把个数n替换成自由度，也就是真正自由变化的随机变量个数 n-1。

这话绝对没错，而且直切重点！但。。。

是不是一脸懵逼？

为什么是n-1可以理解，随便哪本教科书都有写证明，换成n-1就行。但是为什么这个数恰好又是自由度呢？理由全都是数学公式啊。。。