首页 > 编程知识 正文

样本方差与样本标准方差,样本平均值与方差

时间:2023-05-05 18:01:22 阅读:228208 作者:695

本短文介绍了总体、样本、总体方差、样本方差、抽样方差和标准误等概念以及它们之间的一些关系。因为一些外文材料的翻译不善以及老师课堂教学中的不重视,我身边仍有许多人将它们混淆。

本短文的参考资料主要包括Angrist和Pischke的《Mastering `metrics》以及Wooldridge的《Introductory Econometrics (Fifth edition)》。

1 总体方差和样本方差

总体和样本

首先提一下“总体(population)”和“样本(sample)”两个概念。总体包含我们研究的目标群体中所有的个体的数据,比如所有2008年的海归科学家的年龄;样本仅包含总体中一部分个体的数据,假设2008年的海归科学家总共10万人,我们费了大劲找到了1万人,这1万人的年龄就是刚才那个总体的一个样本。当然,总体和样本是相对的概念,如果某人研究时觉得1万个数据还是太多不好搞,从中随机抽了100个数据,这时候那1万个数据就成了总体了。

虽说样本和总体是相对的概念,但在大多数情况下,我们都会谦虚地认为我们手里的数据只是一个样本,是通过对总体进行抽样而获得的,或者说我们的研究问题总是使得直接研究总体是不可行的。人们把关于总体的统计量叫做“总体XX(population xxx)”,把关于样本的统计量叫做“样本XX(sample xxx)”。

我们用Y来表示刚才提到的2008年的海归科学家的年龄这个随机变量(random variable)。注意,“随机变量”得名是因为它取的值们由随机试验产生,并不直接因为它自己是随机的,这里面有细微的差别。

总体方差与样本方差

这里我们区分两种方差,“总体方差(population variance)”

和 “样本方差(sample variance)” 。简单来说,总体方差 就是对整个总体运用方差计算方法得到的结果:

其中

表示这个总体里面所有数据的平均值,即 “总体均值(population mean)”。总体均值也叫 数学期望,后者记作E( Y)。 N表示总体里数据的个数。 N可以为正无穷,表示这个总体是无穷的。

但对于一个具体的样本,它的样本方差

该怎么算,取决于它的用途。因为总体方差在现实中很难获得,所以人们经常用样本方差来估计总体方差,比如在构建某些统计量的时候。这时候为了保证估计的无偏性(unbiasedness,以后详解),样本方差的计算公式就是:

其中

(读作 Y bar)表示这个样本里所有数据的平均值,即 “样本均值(sample mean)”。 n表示 样本容量,也就是这个样本里数据的个数。注意分母并不是 n而是 n-1。 但是如果仅仅希望用它来展示这个样本内数据的离散程度,那么样本方差在这里就没必要除以n-1了,除以n就好了。

方差的算术平方根叫做“标准差(standard deviation)”,“deviation”有“偏离”的意思,指的是对平均值的偏离。当然,标准差同样分为“总体标准差(population standard deviation)”

和 “样本标准差(sample standard deviation)” 。

在EXCEL里,方差和标准差都分别有总体版本和样本版本,其中样本版本的分母就是数据的个数减1,请根据需求谨慎使用。

2 抽样方差和标准误

被衍生出的随机变量—样本均值

刚才提到,Y的样本均值(sample mean)被记为

,也就是在变量符号上加一个横线。因为每从 Y的总体里进行一次随机抽样就能得到一个 ,所以根据定义, 自己也是一个随机变量了,它也拥有了总体、样本等等。这里可能有点抽象,它的总体是什么?是给定样本容量 n,所有可能的样本的平均值的集合。

的总体方差被称为 “抽样方差(sampling variance)”,请注意与样本方差(sample variance)区分。 的总体标准差被称为 “标准误(standard error)”,也记作 。

标准误是个很重要的统计量,它存在是因为我们认为自己手头的数据只是一个样本而非总体。所以在建立了数学模型并用手头的数据估计出变量系数后,通常我们会问自己一个问题:如果用很多不同的样本估计同样的系数,估计值的变化会有多大?能度量这个变化性的统计量就是标准误。

如果标准误太大(这个“大”当然是相对于系数的取值而说的,同时和样本容量也有点关系),考虑到我们真正感兴趣的是总体的情况,那么刚才用这个样本估计出的系数就没有任何参考价值,这个系数就“不显著”。

我们手上毕竟只有一个样本,它只有一个平均值,怎么计算

的总体方差和总体标准差呢?下文将说明 的计算方法,它们表示的其实是“潜在的”变化性。

抽样方差和总体方差的关系

显然,Y和

这两个随机变量的关系异常紧密,它们各自的总体方差,即 Y的总体方差 和抽样方差 有着这样的关系:

其中n为

对应的样本容量。推导过程已略去,但是请注意,推导的过程隐含了一个假设,即总体是无穷的(所以不要问如果样本容量和总体一样大怎么办)。在现实中人们更喜欢用两边的算术平方根,即:

其中SE即为“Standard Error”的缩写,直译过来就是“标准误”。为什么叫做“误(error)”呢?可以简单地这样理解:标准误是

的总体标准差,如果这个标准差越大, 的分布就越离散,我们用它来估计 Y的总体均值 的时候可能的误差就越大。直观地看,当样本容量 n逼近无穷大时,根据大数定律, 会逼近 Y的总体均值,那么标准误就应该趋近于0。显然,计算公式告诉我们结果的确是这样的。

之前说过,总体标准差

在现实中很难获得,于是我们会用 来替代上式中的 :

当然,这里的样本标准差

是总体标准差 的估计量,计算 的时候分母是 而不是根号下的 。

3 小结

1)人们把关于总体的统计量叫做“总体XX(population xxx)”,把关于样本的统计量叫做“样本XX(sample xxx)”。

2)为了使样本方差成为总体方差的无偏估计量,样本方差计算时的分母并不是样本容量n而是n-1。但如果单纯想研究样本里数据的离散程度,分母就不用减1了。

3)因为每进行一次抽样就能得到一个样本均值

,所以 同样是一个随机变量。这个新随机变量的总体方差叫做 “抽样方差(sampling variance)”,这个新随机变量的总体标准差叫做 “标准误(standard error)”。现实中的抽样方差和标准误含义可能更丰富,但都与抽样(sampling)有关。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。