首页 > 编程知识 正文

统计学找错(统计学第二类错误)

时间:2023-05-05 09:07:50 阅读:94037 作者:1641

总结统计学中经常犯的错误,了解这些常识,可以在和别人“gtdyb”时提高专业性。

1 .变量之间的关系可以分为两类:

函数关系:反映了事务之间的特定关系。

相关关系:两个变量之间存在某种依赖关系,但两者并不是一对一对应的; 反映了事务之间不完全的确定关系

2 .为什么要显着检验相关系数?

实际上完全无关的变量,如果使用样本数据进行计算,也有可能得到较大的相关系数值(特别是时间序列数值)。 样本数越少,相关系数越大。 当样本量从100减少到40时,相关系数有很高的概率上升,但不能保证会上升多少; 根据你的排除数据原则,这个组的数据可能真的不相关

改变2列数据的顺序也不会影响相关系数和散布图(拟合的函数曲线); 对两列数据进行归一化处理,为了不影响相关系数进行归一化处理我们计算出的相关系数是线性相关系数,只能反映两者是否具有线性关系。 相关系数高是线性模型拟合程度高的前提,此外相关系数反映两个变量间的相关,多个变量间的相关可以通过复相关系数来测量

3 .如果增加变量的个数,R2就会变大; p值、f值满足条件即可,无需追求其值过小;

4 .多重共线性和统计假设检验分不清傻瓜吗?

虽然多重线性与统计假设没有直接关联,但它在解释多重回归的结果中是非常重要的。 相关系数是指使两个变量间的相关发生反应的回归系数,假设其他变量不变,自变量以一个单位变化,如果由于变量的影响而存在多重共线性(变量间的相关系数较大),则难以解释,例如,y~x1 x2; x1和x2有多重共线性,x1变化一个单位时,x2不变化,对y的影响; 另一方面,x1与x2高度相关,因此被解释为没有意义。

一元回归没有多重共线性问题多元线性回归必须排除多重共线性的影响; 因此首先对所有变量进行相关系数分析,初步判定是否满足前提多重共线性。

5 .时间序列数据自发地呈现完全的共线性问题,因此使用自回归分析方法;

6 .什么型号是好型号?

测试集提供了与预测集相同的性能,并表明模型没有过度拟合。 在训练集中是完美的,在测试集中是一团糟。 原因:模型刚度过高:“极其历史规律,考虑随机误差”的拟合精度不能作为模型测量方法的基准

是个好模特。 只描述规则性的东西(抓住交易的主要特征),有随机误差是好事。 预测时,会产生“容错空间”,预测误差可能会变小。

7 .对假设检验显着性水平的两种理解:

显性化水平:用概率低的标准来理解,在假设检查时不决定概率低的标准——显性化水平来表示; 出现概率小于显着水平的事件称为概率低的事件; 通过两种错误的理解,拒绝域面积

8 .中心极限定律和大数定理:

大数定理---正态分布的“左磅”可以随着样本数量的增加,样本的平均值估计整体的平均值;

中心极限定理---正态分布的“右臂”具有稳定性,许多定理表明,重复实验的平均结果稳定地解决了变量均值的收敛性问题中心极限定理逐渐遵循随机变量之和的某一分布,从而解决了分布收敛性问题。

9 .分散

方差可以最大限度地反映原始数据信息

反映了一系列数据相对于平均值的变动程度,与相比

的平方项更扩大波动,差的平方大大有助于公式的推导。

10 .使用最小二乘法的条件:

自变量之间不能存在完全的共线性; 整体方程的误差项服从平均值为0的正态分布(大数定理); 误差项的方差不受自变量的影响,是固定值(各向同性差) ) ) ) )。

11 .最大似然估计和最小二乘法的区别

最小二乘法是基于几何学意义上距离最小的最大似然估计是基于概率意义上出现的概率最大的最小二乘法:对数据分布没有要求的最大似然估计

:需要知道概率密度函数。

12. 关于H0与H1

H0:原假设,零假设----零是相关系数为0,说明两个变量无关系。

H1:备用假设。

如何设置原假设:

1.H0与H1是完备事件组,相互对立,有且只有一个成立。2.在确立假设时,先确定备设H1,然后再确定H0,且保证“=”总在H0上。3.原H0一般是需要反驳的,而H1是需要支持的。4.假设检验只提供原假设不利证据。

即使“假设”设置严密,检验方法“精确”;假设检验始终是建立在一定概率基础上的,所以我们常会犯两类错误;

第一类:原H0是真,却拒绝原假设;犯 a类错误。

第二类:原H0是假,却不拒绝原假设;犯 B 类错误。

通常只能犯两种错误中的一种,且 a 增加, B 减少。

通常, a类错误是可控的,先设法降低第一类错误概率 a。

13. 什么是双尾检验,单尾检验?

1. 当H0采用等号,而H1采用不等号,双尾检验。

2.当H0是有方向性的,单尾检验。

14. P值

当原假设为真时,比所得到的样本观察,结果更极端的结果会出现的概率。如果P值很小,我们拒绝原假设的理由越充分。P的意义不表示两组差别大小,p反映两组差别有无统计学意义。显著性检验只是统计结论,判断差别还需要专业知识;

15. T检验与U检验

当样本容量n够大,样本观察值符合正态分布,可采用U检验;当样本容量n较小,若观测值符合正态分布,可采用T型检验。

16. 方差分析

主要用于两样本及以上样本间的比较,又被称为F检验,变异数分析;

基本思想:通过分析研究不同来源的变异对总体变异的贡献大小,从而确定可控因素对研究结果影响力的大小;

总变异可以被分解为组间变异与组内变异。

组间变异:由于不同实验处理而造成的各组之间的变异。组内变异:组内各被适变量的差异范围所呈现的变异。

17. 直方图:对数据进行整体描述,突出细节

箱线图:对数据进行概要描述,或对不同样本进行比较。箱线图可以让我们迅速了解数据的汇集情况(这个样本,紧密的集合在一起;哇,这个样本不那么密集;这个样本,大部分向左偏,哇,这个样本大部分向右偏。)

但是请注意:一个直方图比1000个p值更重要,拿到数据先绘制散点图、直方图、箱线图看看,再决定用什么描述!

18. 霜线图

对于分位数的理解:霜线图看数据分布特征统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的得分就是四分位数。所以,四分位数有三个!四指四等份!

第一四分位数:下四分位数;等于该样本中所有数值由小到大排列后第25%的数字(所以下四分位数可以不是样本中的数值,它是一个统计指标(就像平均数一样,不一定是原数据中的一点)。第二四分位数:中位数;第三四分位数:上四分位数。

其中,下四分位数与上四分位数的距离叫四分位距!(IQR)

一元回归不存在多重共线性的问题;而多元线性回归要摒弃多重共线性的影响;所以要先对所有的变量进行相关系数分析,初步判定是否满足前提---多重共线性。

来源:知乎;本次编辑转自:数据派THU 公众号;

版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。