怎么做多因素方差分析,什么叫多因素方差分析

方差分析不管你是单因素还是多因素，当各组的样本量都相等时，我们通常会忽略“方差齐性”这个假设，也就是方差不齐也是可以的（警告：此条件在你使用方差分解法进行方差分析是有效的。如果你使用“线性回归”进行方差分析，如果方差不齐，则估计出来的回归系数方差不准确，会导致回归系数的检验出现偏差）。比如单因素方差分析你有3个组，每组的样本容量都是20，则即使方差不齐也可以当成是方差齐进行F检验。另外即使各组样本量和样本方差都有略微差别，我们也大可不必担心。一般来说，如果没有哪个样本的方差是其它样本方差4 倍以上（也就是说没有样本的标准差是其它样本的两倍以上），并且没有哪个样本的样本量是其它样本量的1.5 倍以上时，你就可以用一般的方差分析程序以及使用略有一点误差的临界F 值表。如果样本量相差很大（井且样本量本身不是很大）并且样本的方差也很不相同，那么我们就有理由担心方差不齐的问题。总结来说就是当样本量都相等时，方差分析对于方差不齐是稳健的。这里我想说的是，至于有多稳健，只能看你的运气了。

方差不齐，另一个办法是对数据进行变换，变换后也许方差齐。变换要注意一点的是有些变换是可以的，有些变换是不可以的。比如对数变换，开根号变换都是可以的，为何？因为这两种变换不会改变数值的大小比较。30>20，必定有 ln30>ln20，30的平方根>20的平方根，变换前后不改变数值大小排序。但是“标准化”变换是不可以的，标准化后均值都为零，也就是变换后的均值都相等，这就改变了原始变量均值的大小排序。

方差分析可以使用回归方法，也就是我们常说的“一般线性模型”（GLM）来分析。GLM其实就是“多重线性回归”。方差不齐对回归系数的影响主要是回归系数的标准误估计不准确，在大样本情况下，我们可以得到 “怀特异方差-稳健标准误”，基于这个“稳健标准误”我们就能对回归系数做正确的假设检验，也就是我们解决了异方差导致的问题。这个方法的缺点就是要求大样本。

我个人比较推荐的是“自助法(bootstrap method)。自助法可以得到自助法回归系数，这个回归系数非常稳健，不管你有没有异方差都可以使用，当然，如果有异方差，这个自助法就显得更有威力了。SPSS 的 GLM 模块可以得到自助法回归系数。SPSS中多重比较也可以使用自助法。

下面再说说单因素方差分析的额外方法。方差分析你可以做F检验，也可以直接进行多重比较。也就是方差分析并不是一定要做F检验。如果检测到方差不齐，可以使用方差不齐的“多重比较方法”，比如 Games-Howell Pairwise Comparison Test (GH) ，Tamhane’s T2 ，Dunnett’s T3 和 Dunnett’s C 就是方差不齐的多重比较方法。至于F检验，也有两种方差不齐的F检验方法：Brown-Forsythe 和 Welch 就是单因素方差分析方差不齐的F检验法。

单因素方差分析还有一个非参数检验方法叫：Kruskal-Wallis检验法。这个方法不要求正态，也不要求你方差齐。

上面方法到底怎么选择？我个人理解是，样本量相等对于方差不齐是稳健的，但是这个稳健到底有多稳健我们是不知道的，也许你的运气不够好它就不稳健了。所以如果你的样本量都相等，同时你有其它的解决异方差的方法，那么就使用其它的异方差解决方法，毕竟，其它的异方差方法的稳健是实实在在的。

如果你有条件使用自助法，那么自助法应该是最优方法（排除数据变换法）。它的优点是对于各种苛刻条件它都很稳健，而其它的方法只在某些方面是稳健的，也就是其它方法不能面对各种条件都稳健。比如单因素方差分析，我们的选择非常多，但是只有“自助法”才是最优，其它方法都有各自的缺点，并不能包打天下。

自助法和数据变换这两个方法，我认为都很好，并驾齐驱。如果通过数据变换能让方差齐，那么这两个方法你可以都使用，然后看看它们之间的差异，也许能给你带来其它更深层次的思考。