logistic模型,多因素方差分析步骤

介绍了基于SPSS (二) SPSS的多因素方差分析模型在单因素方差分析前的博客https://blog.csdn.net/luyi _ weilin/article/details/89917656

这个博客主要学习多因素方差分析

多因素方差分析是指在同时考虑多个控制因素的情况下，分别分析这些变化是否会引起观察变量的显着变动

[多个自变量、一个要因变量]自变量类型可以是以分类变量为主的连续变量，但连续变量通常通过找出其与要因变量的回归关系来控制其影响，要因变量是连续变量

实例：同时考虑职业(以下三种职业)和性别对收入的影响

在上面的例子中，如何写模型表达式呢？

如果只研究职业的影响

如果只研究性别的影响

同时考虑职业和性别对收入的影响

如果仅考虑主效应，则相互作用项在现实中可以省略为没有统计学意义(当然在后面的模型检查中也给出相应的检查p值)

方差分析模型常用术语因子(Factor )简单地说，自变量的因子是一个可能影响因子的变量，一般因子具有多个水平，目的是考察或比较各个水平对因子的影响是否相同

简单来说，“级别”是指参数中所有值类型要素的不同值类型称为级别，例如性别分为男性和女性两个级别。

小区(Cell )，例如，以下六个小区也称为测试单位，并且是指每个元素的电平之间的每个组合。指各因素各级别的组合，如性别(二级)、血型(四级)对成人身高的影响，该设计最多可有2*4=8个单元。请注意，在某些特殊的试验设计中，有些单元不像拉丁美洲设计那样出现在样品中。

“要素”(Element )是指用于测量因变量值的观察单位，如研究职业与收入之间的关系；如果月收入来自每个受访者，则每个受访者都是实验的要素

一个单元格中可能有多个元素，可能只有一个，也可能没有元素。

这主要体现在正交设计等特殊设计方案中

均衡在一个实验设计中，如果任何元素的每个级别在所有单元中出现相同的次数，并且每个单元中的元素数量相同，则该实验是均衡的，否则称为不平衡。不平衡的实验设计在分析时很复杂，为了得到准确的分析结果，需要特别设置对方差分析模型。

如果一个因素的效果大小在另一个因素的不同级别明显不同，则称为两个因素之间存在交互。在相互作用的情况下，单纯研究一个因素的作用没有意义，必须分为另一个因素的不同层次来研究该因素作用的大小。

因子的分类简单地说，因子根据类型分为固定因子(分类的自变量)、随机因子(协调变量)、连续的自变量)

固定因素(Fixed Factor )是指该因素在样本中所有可能的级别上都出现了。通过样本的分析结果可以了解所有水平的情况，不需要进行外推。

大多数情况下，研究者真正关心的因素是固定因素。

性别：只有两种

治疗方法：只有三种

随机因子(Random Factor )该因子的所有可能值都不出现在样本中，而目前样本中的这些水平是从总体中随机抽样的，重复本研究，可能得到的因子水平与目前完全不同

此时，研究人员显然希望得到“泛化”，即适用于所有可能出现的层面的结果。这有不可避免的误差，需要估计误差的大小，因此被称为随机因素。

“协变量”(Covariates )是指可能影响变量且必须在分析时控制其作用的连续性变量

-left:0cm;">实际上，可以简单的把因素和协变量分别理解为分类自变量和连续性自变量

当模型中存在协变量时，一般是通过找出它与因变量的回归关系来控制其影响

方差分析模型的适用条件

从模型表达式出发得到的提示

各样本的独立性：只有各样本为相互独立的随机样本，才能保证变异的可加性（可分解性）

正态性：即个单元格内的所有观察值系从正态总体中抽样得出

xwdmj：各个单元格中的数据离散程度均相同，即各单元格xwdmj

在多因素方差分析中，由于个因素水平组合下来每个单元格内的样本量可能非常少，这样直接进行正态性、xwdmj检验的话检验效能很低，实际上没什么用，因此真正常见的做法是进行建模后的残差分析

方差分析模型的检验层次

1.对总模型进行检验

2.对模型中各交互效应、主效应进行检验（要先分析交互项）

2.1交互项有统计学意义：分解为各种水平的组合情况进行检验

2.2交互项无统计学意义：进行主效应各水平的两两比较

案例一：固定因素--因变量

超市规模、货架位置与销量的关系

现希望现希望考察对超市中销售的某种商品而言，是否其销售额会受到货架上摆放位置的影响，除此以外，超市的规模是否也会有所作用？甚或两者间还会存在交互作用？

Berenson和Levine（1992）着手研究了此问题，他们按照超市的大小（三水平）、摆放位置（四水平）各随机选取了两个点，记录其同一周内该货物的销量。

数据集如下

1A45.01A50.01B56.01B63.01C65.01C71.01D48.01D53.02A57.02A65.02B69.02B78.02C73.02C80.02D60.02D57.03A70.03A78.03B75.03B82.03C82.03C89.03D71.03D75.0

第一步：检验一下实验是否为均衡实验

分析--统计描述--交叉表

各单元元素数量一致，所以为均衡实验

第二步：模型检验

分析--一般线性模型--单变量（单个因变量）

结果解读

首先校正模型的SIg.显著性检验小于显著性水平0.05，所以拒绝原假设，所以使用线性来拟合这个模型是有效的

下面的截距、size、position、size*position和下面表达式相对应

先观察主效应显著性为0.663大于显著性水平0.05，所以没有意义，可以剔除重新再做模型，假如不剔除会对后面有意义的产生影响，结果也会不准确

如何剔除（分析--一般线性模型--单变量--设定）

之后重建模型检验得到这样

之后我么就可以看主效应size、position两个固定因素各自的单因素方差分析，进行主效应各水平的两两比较

具体详细就不讲了，大家可以参考我的博客https://blog.csdn.net/LuYi_WeiLin/article/details/89917656

第三步：模型检验

变量的独立性通过，正态检验和xwdmj性我们通过残差图来查看

分析--一般线性模型--单变量

一般我们只关心这幅图

如何放大，只显示这张图（双击这张图）

按照下面的选项操作

残差图所有点都在正负3以内，没什么大问题，所以也满足正态检验和xwdmj性，所以该题用多因素方差分析模型是适用的

估计边界均值

所谓边际均值,就是在控制了其他因素之后,只是单纯在一个因素的作用下,因变量的变化,在普通的分析中,因变量的变化都是几个因素共同作用的结果.

画出轮廓图

交互项不影响，轮廓图几条应平行

案例二：随机因素--因变量

现希望研究四种广告的宣传效果有无差异，具体的广告类型为：店内展示、发放传单、推销员展示、广播广告。在本地区共有几百个销售网点可供选择，出于经费方面的考虑，在其中随机选择了18个网点进入研究，各网点均在规定长度的时间段内使用某种广告宣传方式，并记录该时间段内的具体销售额。为减小误差，每种广告方式在每个网点均重复测量两次。

数据集如下

1.01.041.02.01.061.02.01.044.03.01.061.03.01.086.04.01.076.04.01.075.05.01.057.05.01.075.06.01.052.06.01.063.07.01.033.07.01.052.08.01.069.08.01.061.09.01.060.09.01.043.010.01.061.010.01.069.011.01.041.011.01.043.012.01.066.012.01.051.013.01.065.013.01.060.014.01.058.014.01.052.015.01.050.015.01.055.016.01.044.016.01.052.017.01.045.017.01.045.018.01.058.018.01.060.01.02.075.01.02.068.02.02.057.02.02.075.03.02.076.03.02.083.04.02.077.04.02.066.05.02.075.05.02.066.06.02.072.06.02.076.07.02.076.07.02.070.08.02.081.08.02.086.09.02.063.09.02.062.010.02.094.010.02.088.011.02.054.011.02.056.012.02.070.012.02.086.013.02.087.013.02.084.014.02.065.014.02.077.015.02.065.015.02.078.016.02.079.016.02.080.017.02.062.017.02.062.018.02.075.018.02.070.01.03.063.01.03.058.02.03.067.02.03.082.03.03.085.03.03.078.04.03.080.04.03.087.05.03.087.05.03.070.06.03.062.06.03.077.07.03.070.07.03.068.08.03.075.08.03.061.09.03.040.09.03.055.010.03.064.010.03.076.011.03.040.011.03.070.012.03.067.012.03.077.013.03.051.013.03.042.014.03.061.014.03.071.015.03.075.015.03.065.016.03.064.016.03.078.017.03.050.017.03.037.018.03.062.018.03.083.01.04.069.01.04.054.02.04.051.02.04.078.03.04.0100.03.04.079.04.04.090.04.04.083.05.04.077.05.04.074.06.04.060.06.04.069.07.04.033.07.04.068.08.04.079.08.04.075.09.04.073.09.04.065.010.04.0100.010.04.070.011.04.061.011.04.053.012.04.068.012.04.073.013.04.068.013.04.079.014.04.063.014.04.066.015.04.083.015.04.065.016.04.076.016.04.081.017.04.073.017.04.057.018.04.074.018.04.065.0

首先还是看实验是否均衡

所以为均衡实验，因为网点是随机抽取的，所以不能用固定因素，要用随机因素

有随机因素就没有总的模型检验了，该因素所有可能的取值在样本中没有都出现，总的表达式无法表达出来，所以就没有总的模型检验

看交互项adstype * area 显著性大于0.05，剔除

之后我们对adstype、area 进行单因素方差分析（随机因素就没有两两比较的方法了）

adstype可以进行两两比对，划分同类子集

模型检验

残差分析

总体在正负3以内，没超过正负4，还行

看其轮廓图