首页 > 编程知识 正文

标准差怎么算(标准差和标准偏差)

时间:2023-05-04 21:51:04 阅读:151 作者:358

什么是SD?

标准差量化了可变性或离差,并以与数据相同的单位表示。

00-1010通过几个问题,让我们对标准差的概念有一个深刻的理解。

如果Q1数据是高斯的,如何解释SD?

如果数据是从高斯分布总体中采样的,您预计68%的值在平均值的标准差内,95%的值在平均值的两个标准差内。该图显示了从高斯分布总体中采样的250个值。阴影区域覆盖平均值的正负标准差,包括大约三分之二的数值。虚线是根据平均正负两个标准偏差绘制的,大约95%的值都在这些范围内。

下图显示了标准差和高斯分布之间的关系。概率分布下的面积代表整个人口,所以部分概率分布下的面积代表人口的一部分。在左边的图表中,低于平均值的一个标准差的绿色(阴影)部分延伸到高于平均值的一个标准差。绿化面积约占总面积的68%,所以略多于三分之二的数值在平均值1 SD的范围内。右图显示,大约95%的值在平均值的两个标准偏差范围内。

如果Q2数据不服从高斯分布,如何解释SD?

下图显示了三组数据,它们的平均值和标准差完全相同。左样本近似为高斯分布。另外两个样本远离高斯分布,但具有完全相同的平均值(100)和标准偏差(35)。

图表指出,如果假设数据服从高斯分布,但假设不正确,那么用常规方法解释平均值和标准差可能会产生误导。

SD仍然可以在不假设服从高斯分布的情况下进行解释。Axdzm定理提到,即使数据不是从高斯分布总体中采样的:

至少75%的值必须在平均值的两个标准偏差范围内,至少89%的值必须在三个标准偏差范围内。Q3如何报告标准偏差?

很多人报告的平均值和标准差如下:“11510 mmhg”,“方法”部分有一个脚注或语句,将第二个值定义为标准差。

有人(1*,2*)说,既然标准差是一个具有定量离散性的单值,就不应该跟正/负号,而应该采用以下方式:“115 mmhg(SD 10)”。

*参考文献:

[1]美国生理学会出版的Curran-Everett D和Benos d. Journal统计报告指南。《AJP - 胃肠和肝脏生理学》 。2004年8月1日;287(2):G307

[2]卢德布鲁克.以及临床药理学和生理学的统计介绍。《临床实验药物生理学》 。2008年10月1日;35(10):1271 - 4;authorreply1274

什么是标准差?

首先,我们来看看SD是如何计算的。

计算每个值与样本平均值之差的平方;将这些值相加;将总和除以N-1。称之为方差;开方求标准差;以上是基本计算方法。接下来,我们来逐一看看你可能有的疑惑。

Q1“为什么是n-1?”

为什么上面第三步要除以n-1(而不是n)?在步骤1中,计算每个值与这些值的平均值之间的差值。你不知道人口的实际平均值,只知道样本的平均值。除了在极少数情况下样本平均值完全等于总体平均值,数据将比实际总体平均值更接近样本平均值。因此,您在步骤2中计算的值可能比在步骤1中使用实际总体平均值时的值要小(并且不要大)。为了弥补这个不足,我们用n-1而不是n来除。

但是为什么要用n-1呢?如果知道样本平均值和除一个值以外的所有值,就可以计算出最后一个值。统计学家说有n-1个自由度。

Q2“但是我看到方程的分母是N,而不是n-1?”

用N-1方程分析数据样本,希望能得到更接近一般结论的常见情况。以这种方式计算的标准差(分母中的n-1)是您对总人口标准差值的最佳猜测。

如果你只是想量化一组特定数据的变化,却不想通过外推得到更广泛的结论,那就用分母中的n来计算SD。由此产生的标准差是这些特定值的标准差,但它很可能低估了由这些数字点提取的人口的标准差。

科学的目标永远是泛化,所以在分析科学数据时,方程的分母不应该用n。我能想到的唯一一个在分母中使用n而不是n-1可能有意义的例子是量化考试成绩之间的差异。但是更好的方法是显示每个分数的散点图,或者

频率分布直方图。

Prism始终使用n - 1计算SD。

Q3 "计算SD需要多少个值?"

SD量化的是离散度,所以只有一个值是不行的。那么两个值够不够呢?很多人认为只有两个值也是无法计算SD的。其实不然,天真的茉莉只有重复(n = 2)的数据时,也是可以正常计算SD方程的。

大家所关心的是,这样的结果是否真的有效?

我们可以用模拟计算来回答这个问题。我们模拟一万个n = 2的数据集,并且每个数据点均从高斯分布中随机选取。由于所有统计检验实际上均以方差(SD的平方)为基础,因此我比较了根据重复数据计算的方差和真正方差。模拟数据的10,000个方差的平均值与模拟数据来源真正方差的差异不超过1%。这意味着根据重复数据计算的SD是对数据离散度的有效评估。其同样可能过高或过低,但也可能距离真SD非常远。

Q4 “如何使用Excel计算SD?”

Excel可以使用STDEV()函数,根据一系列值计算SD。例如,如果你想知道单元格B1 - B10中值的SD,则在Excel中使用以下公式:

= STDEV(B1:B10)

该函数在分母中使用n - 1,计算SD。如果你想在分母中使用N以计算SD(见上文),则使用Excel的STDEVP()函数。

Q5 “SE和SEM是一回事儿吗?”

不是一回事儿!

标准偏差(SD)与平均值标准误差(SEM)之间的差值很容易混淆。主要差异在于:

SD量化了分散 - 值之间的差值有多大;

SEM量化了你对总体实际平均值的了解程度。其考虑了SD的值和样本量;

SD和SEM均在相同单位内--数据的单位;

根据定义,SEM始终小于SD;

随着你的样本变大,SEM变小。这有意义,因为大样本的平均值可能比小样本的平均值更接近真实的总体平均值。在一个巨大样本的情况下,即使数据非常分散,但你也能非常精确地知道平均值的值;

随着你获得更多的数据,SD不会发生可预测的变化。你从样本中计算出的SD是对总体SD的最佳估计。随着你收集更多的数据,你将更精确地评估总体的SD。但你不能预测来自大样本的SD是否会大于或小于来自小样本的SD。(严格来说,这并不正确。其为方差--SD平方--不会发生可预测的变化,但SD的变化微不足道,且比SEM中的变化小得多)

注意:对于你几乎可根据数据计算出任何参数,你可计算标准误差,而不仅仅是平均值。“标准误差”一词有些许模棱两可。上述各点仅指平均值的标准误差。


|| 往期内容推荐 [中国赞]

GraphPad Prism 统计教程 | 置信区间(三)

GraphPad Prism 9 新功能详细说明

CN官网 www.graphpad-prism.cn

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。