混合线性模型介绍--Wiki

模型介绍

混合线性模型： 是即包括固定因子，又包括随机因子的模型。混合线性模型被广泛应用于物理、生物和社会科学。尤其是一些重复测量的数据及面板数据。混合线性模型比较突出的特点是可以非常优秀的处理缺失值，相对于传统的方差分析，它有更广泛的使用范围，也更优秀。

发展历程

Ronald Fisher 最早提出随机因子模型来研究亲属间性状的相关性，1950年 Charles Roy Henderson 提出了最佳线性无偏估计（BLUE），这是针对于固定因子的评估。对随机因子的评估是最佳线性无偏预测（BLUP）。随后，混合模型在统计学研究中成了一个热门领域，相关的模型不断提出，比如非线性混合模型，极大似然发估计，混合模型中的缺失值处理，贝叶斯估计混合模型等。混合模型被应用在许多领域，特别是观测值之间是有关联的重复测量数据，比如动植物育种，医学，也被应用在其它领域，比如棒球，工业统计等。

定义

以矩阵定义混合模型，可以写成：

y = X β + Z μ + ϵ y = Xbeta + Zmu + epsilon y=Xβ+Zμ+ϵ

这里
y y y是观测值的向量,它的平均值可以表示为 E ( y ) = X β E(y) = Xbeta E(y)=Xβ
β beta β 是固定因子的效应值
μ mu μ 是随机因子的效应值，它的平均值为 E ( μ ) = 0 E(mu)=0 E(μ)=0,.它的方差为 v a r ( μ ) = G var(mu) = G var(μ)=G
ϵ epsilon ϵ是残差的向量矩阵,它的平均值为 E ( ϵ ) = 0 E(epsilon)=0 E(ϵ)=0,.它的方差为 v a r ( ϵ ) = R var(epsilon) = R var(ϵ)=R
X X X和 Z Z Z分别是是 β beta β和 μ mu μ的矩阵

计算

混合模型的假定为 μ N ( 0 , G ) , ϵ N ( 0 , R ) mu ~ N(0,G), epsilon~ N(0,R) μ N(0,G),ϵ N(0,R), 其中 C o v ( μ , ϵ ) = 0 Cov(mu, epsilon) = 0 Cov(μ,ϵ)=0，即两者的协方差为0.
Henderson的混合线性公式：

[ X ′ X X ′ Z Z ′ X Z ′ Z + A − 1 K ] [ μ ^ α ^ ] = [ X ′ Y Z ′ Y ] begin{bmatrix} X'X & X'Z \ Z'X & Z'Z + A^{-1}K end{bmatrix} begin{bmatrix} widehat{mu} \ widehat{alpha} end{bmatrix}= begin{bmatrix} X'Y \ Z'Y end{bmatrix} [X′XZ′XX′ZZ′Z+A−1K][μ α ]=[X′YZ′Y]

求解混合线性模型, β ^ hat{beta} β^和 μ ^ hat{mu} μ^的估计值是BLUE值和BLUP值, 求解方程组的前提是 K K K已知, 即而K的公式为: K = σ e 2 σ a 2 K=frac{sigma_e^2}{sigma_a^2} K=σa2σe2, 即残差的方差组分 σ e 2 sigma_e^2 σe2和随机因子的方差组分 σ a 2 sigma_a^2 σa2已知.

评估方差组分的方法有很多种, 有EM 方法, REML方法, Beyes方法等, 现在R种的包(nlme, lme4, MCMCglmm，asreml)对这些方法都有应用.

如果您对于数据分析，对于软件操作，对于数据整理，对于结果理解，有任何问题，欢迎联系我。