首页 > 编程知识 正文

r语言函数方差假设检验代码,相关系数r的标准差

时间:2023-05-04 12:30:57 阅读:63533 作者:2281

方差分析原理:我想跳过这一部分,突然发现自己理解了这些公式,于是忍不住写了下来。

)1) Xij=X均值(x组内均值-X均值) (Xij-X组内均值) xij表示第I组的第j个观察值,x均值表示所有观察值的均值,x组内均值是各组内的均值。 打开括号就知道成立了,但巧妙地引入了组内平均和组间平均。

(2) SSD总=SSD组内SSD组间(计算x组内平均值-X平均值的方差,构成组间方差SSD组间; 计算Xij-X组内平均值的方差,构成组内的方差SSD组内。 公式转换可以证明SSD总=SSD组中的SSD组之间。

)3) MS组内=SSD组内/(n-k ),MS组间=SSD组间/(k-1 ) # k表示分组个数,n表示所有观测值个数,MS表示均方差。 结构时的SSD服从正态分布,MS也服从正态分布。 组内的差异可以通过规定数据的正规性和yxdxtz性来固定值,但MS组之间是我们的原始假设,假设各组yxdxtz。

(4) F=MS组间/MS组内)这里构建一个f分布,最理想的情况是组内无差异为1,组间无差异为1,即F=1。 如果MS组间平均值超过显着性,则认为f落入95%分布以外的区域,各组的方差都不相等。 因为ANOVA分析是Fisher发明的,所以也被称为f检验。

我很高兴。 我终于明白了一点。 以前总是听不懂。 我建议跳过这个部分,直接往下看。单因素方差分析:

适用条件: (1)正态分布;2 )符合各组内yxdxtz。

这里通常对应于aov ()、公式。

代码示例:用AOV(folate~ventilation,然后summary ) )查看#组间差异p=0.0436

这里的aov ) )输出一个模型,所以必须配合摘要进行显示。 这里的另一个骚动是anova (),公式定义为计算一个或多个拟合模型对象的方差(或偏差)表的分析。 要点:模型对象,分布表。

代码示例: ANOVA (lm (浮动至版本) ) #p=0.04359

有趣的地方来了。 这就是医学统计数字中没有记载的地方。 即方差分析和线性回归都属于一般线性模型。 关于这方面的内容,一位博主讲人已经做了彻底的发表

shahaizimxm的CSDN博文

线性回归介绍的五——回归与方差分析的关系https://blog.csdn.net/Xiang min _ Meng/article/details/22402545

一句话,方差分析的x和y是分组变量和分析变量,其中分组变量是分类资料,分析变量是连续资料线性回归的x和y是自变量和因变量,两者都是连续资料。 区别在于x的分布型。 方差分析的x对应于多个y。 因为后者属于一个组,所以线性回归的x对应于一个y。 当然,离散数据中也有可能对应多个x相等等。 相同点是,他们属于一般的线性回归模型,都可以用y= x 表示。多重检验

这里有很多方法。 LSD检查、Dunnett检查、Tukey检查、SNK检查、Bonferroni检查、scheffe检查(最保守)等。 教科书中2、2次的比较使用了SNK,但2、2次较多的情况下,例如10组进行45次比较,假阳性会非常高。

LSD是least significant difference的缩写,也称为最小显着性差异方法,其灵敏度最高,假阳性较低,但也称为一种错误(即假阴性,本来是真的却放弃了,“弃真”,另一侧两种错误也称为假阳性) 如果LSD法没有检测到差异,可能就没有真正的差异。spss在本章中使用了Bonferroni校正的LSD检查。

而各组样本的容量又相同时,可采用Tukey法每组示例容量不相同时,可采用Scheffe法(如果需要在任意两组之间进行比较)

组数少的情况下,例如3组、4组的情况下,各比较方法得到的结果的差异不大; 如果要比较的组数较多,请慎重选择比较两平均的方法。

一般参考标准: (1)如果存在明确的对照组,应用Bonferroni(LSD )方法进行验证性研究,即在两个或几个预定组之间(与对照组)进行比较; )2)探索性两种比较,且各组人数相等时,适用Tukey法; )3)其他情况下Scheffe法较为合适,最为保守。

实现:

液晶屏代码示例:

library(agricolae ) #在这里,您必须使用agricolae软件包的LSD.test函数,这是一个常用的统计软件包。

out-LSD.test (aov (folate~ventilation )、“ventilation”、p.adj=“bonferroni”

Tukey代码示例:

#TukeyHSD (自动~扩充) #TukeyHSD是r所拥有的方法

HSD.test(AOV ) folate~ventilation )、‘ventilation’这是agricolae软件包的HSD.test函数,

听说是比TukeyHSD函数更好,我还没弄懂agricolae包的显示特点,等我以后弄懂了我再来回答,我先贴图供大家分析。

SNK代码例子:
>SNK.test(aov(folate ~ ventilation),‘ventilation’) #这是agricolae包的SNK.test函数
Scheffe代码例子:
>scheffe.test(aov(folate ~ ventilation),‘ventilation’) #这是agricolae包的scheffe.test函数
以上是最常见的几种方法。
这里还有一种方法叫成对比较,pairwise.t.test,非常好用,,能显示成对比较的p值表。
代码示例 >pairwise.t.test(folate,ventilation,p.adjust.method = ‘bonferroni’)
注意这里的p.adjust.method,包括了c(“holm”, “hochberg”, “hommel”, “bonferroni”, “BH”, “BY”, “fdr”, “none”)。这个是R自带的两组比较的检验方法,输出的是各组两两比较的p值。如果p大于1,则输出1,这个p值的最大就是1。
平常建议使用这个,或者LSD,都可以。

把这幅图和上面LSD的图比较可以发现,LSD用的是字母表示法,告诉你哪两组有差异,而pairwise.t.test是输出p值。但两者最后呈现的结果是一样的,因此根据需要选择。这个pairwise不用加载agricolae包,可能我比较喜欢,方便快捷。
保守的单因素方差分析
回顾前面,前面说了这么多,其实只是讲了ANOVA的分析,还记得么,它的前提条件是各组数据符合正态分布和yxdxtz,而这里要介绍Welch的方法,即只需要正态分布,不需要yxdxtz的检验方法,类似于t检验里,我们介绍过1次。话说Welth真是个保守的人呢,但是他的结果我感觉灵敏度比不上ANOVA。
代码例子:> oneway.test(folate ~ ventilation) #p=0.09277
可以看到,这里输出的p比上面ANOVA输出的p要大很多,结果也从显著的临界值变得不显著。这是个非常悲伤的故事,对于国内追求p值的研究者来说,这无异于是晴天霹雳,所以Welch虽然方便,但还是慎用。这零点几的正负就决定着文章能不能见刊了,说起来真是心酸。

非参数方差分析:Kruskal-Wallis检验
KW法,不假设各组的数据分布,仅假设各组具有相似的分布,适用于不符合正态分布的情况,比如偏峰分布。该方法比较简单,原假设同ANOVA。
代码例子: >kruskal.test(folate ~ ventilation) #p=0.1234
这没什么好说的,后面继续上面的多重检验环节。

以上即是常用的单因素方差分析,双因素方差分析例如anova( lm( hr ~ subj+time ) ),以及双因素非参数方差分析的Friedman检验例如friedman.test ( hr ~ time | subj )就不提了。这些我的领域用的太少太少了,所以我就随便过一遍,没有心思去了解。

重新审视线性回归和方差分析
我们说,anova()函数是输出方差分析表,且这个模型的x需要是分类变量。但是,若x是离散变量呢?
当x是离散变量,x与y构建的一元线性回归模型,这个模型在前面讲过,这个模型的斜率是b,截距是a,而若把b定义为模型方差,把a定义为残差方差,那么对于同样构建成这个模型的方差分析,斜率是组间波动,截距是组内波动。所以,对b进行的统计检验其实就是对组间方差进行分析。
由此,可以运用F检验,对一元线性回归模型进行显著性检验,代入一元线性回归分析,即F检验是对原假设“回归模型的斜率为0”作出显著性检验。

今天终于结束了,码字码的很开心,方差分析还差个协方差分析,后面的其他的如卡方啥的都很简单,没啥特别的,所以这么说来,这些关于统计学的知识学习也慢慢接近尾声了。明天开始最喜欢的方差分析的作图时间。
今天比昨天进步一点,每天如此,生活就很充实了。

今天我又回来了,重磅中的重磅,我来解释上面的两两比较中遗留的问题。这个原来是统计学的基础,但是因为我没看统计学原理书,所以这个基础知识点不知道。今天终于明白了。这个就是“多重比较的字母标记法”
多重比较的字母标记法:步骤:(1)将全部平均数从大到小顺序排列,然后在最大的平均数上标上字母a(2)将该平均数依次和其以下各水平均数相比,凡差异不显著的都标字母a,直至某一个与之相差显著的平均数则标以字母b(3)再以该表有b的平均数为标准,与上方各个比它大的平均数比,凡不显著的也一律表以字母b(4)重复以上步骤,标c,d…(5)这样各平均数间,凡有一个标记相等字母的即为差异不显著,凡具有不同标记字母的即为差异显著。在实际应用时,一般以大写字母A,B,C…表示α=0.01显著水平,以小写字母a,b,c…表示α=0.05显著水平。

如此一来,上面的所有的两两比较的方法都通悟了,今天的收获非常的大。这个坑填上了。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。