首页 > 编程知识 正文

logistic模型,多因素方差分析步骤

时间:2023-05-05 00:48:39 阅读:26439 作者:3247

介绍了基于SPSS (二) SPSS的多因素方差分析模型在单因素方差分析前的博客https://blog.csdn.net/luyi _ weilin/article/details/89917656

这个博客主要学习多因素方差分析

多因素方差分析是指在同时考虑多个控制因素的情况下,分别分析这些变化是否会引起观察变量的显着变动

[多个自变量、一个要因变量]自变量类型可以是以分类变量为主的连续变量,但连续变量通常通过找出其与要因变量的回归关系来控制其影响,要因变量是连续变量

实例:同时考虑职业(以下三种职业)和性别对收入的影响

在上面的例子中,如何写模型表达式呢?

如果只研究职业的影响

如果只研究性别的影响

同时考虑职业和性别对收入的影响

如果仅考虑主效应,则相互作用项在现实中可以省略为没有统计学意义(当然在后面的模型检查中也给出相应的检查p值)

方差分析模型常用术语因子(Factor )简单地说,自变量的因子是一个可能影响因子的变量,一般因子具有多个水平,目的是考察或比较各个水平对因子的影响是否相同

简单来说,“级别”是指参数中所有值类型要素的不同值类型称为级别,例如性别分为男性和女性两个级别。

小区(Cell ),例如,以下六个小区也称为测试单位,并且是指每个元素的电平之间的每个组合。 指各因素各级别的组合,如性别(二级)、血型(四级)对成人身高的影响,该设计最多可有2*4=8个单元。 请注意,在某些特殊的试验设计中,有些单元不像拉丁美洲设计那样出现在样品中。

“要素”(Element )是指用于测量因变量值的观察单位,如研究职业与收入之间的关系;如果月收入来自每个受访者,则每个受访者都是实验的要素

一个单元格中可能有多个元素,可能只有一个,也可能没有元素。

这主要体现在正交设计等特殊设计方案中

均衡在一个实验设计中,如果任何元素的每个级别在所有单元中出现相同的次数,并且每个单元中的元素数量相同,则该实验是均衡的,否则称为不平衡。 不平衡的实验设计在分析时很复杂,为了得到准确的分析结果,需要特别设置对方差分析模型。

如果一个因素的效果大小在另一个因素的不同级别明显不同,则称为两个因素之间存在交互。 在相互作用的情况下,单纯研究一个因素的作用没有意义,必须分为另一个因素的不同层次来研究该因素作用的大小。

因子的分类简单地说,因子根据类型分为固定因子(分类的自变量)、随机因子(协调变量)、连续的自变量)

固定因素(Fixed Factor )是指该因素在样本中所有可能的级别上都出现了。 通过样本的分析结果可以了解所有水平的情况,不需要进行外推。

大多数情况下,研究者真正关心的因素是固定因素。

性别:只有两种

治疗方法:只有三种

随机因子(Random Factor )该因子的所有可能值都不出现在样本中,而目前样本中的这些水平是从总体中随机抽样的,重复本研究,可能得到的因子水平与目前完全不同

此时,研究人员显然希望得到“泛化”,即适用于所有可能出现的层面的结果。 这有不可避免的误差,需要估计误差的大小,因此被称为随机因素。

“协变量”(Covariates )是指可能影响变量且必须在分析时控制其作用的连续性变量

-left:0cm;">实际上,可以简单的把因素和协变量分别理解为分类自变量和连续性自变量

当模型中存在协变量时,一般是通过找出它与因变量的回归关系来控制其影响

 

方差分析模型的适用条件

从模型表达式出发得到的提示

各样本的独立性:只有各样本为相互独立的随机样本,才能保证变异的可加性(可分解性)

正态性:即个单元格内的所有观察值系从正态总体中抽样得出

xwdmj:各个单元格中的数据离散程度均相同,即各单元格xwdmj

在多因素方差分析中,由于个因素水平组合下来每个单元格内的样本量可能非常少,这样直接进行正态性、xwdmj检验的话检验效能很低,实际上没什么用,因此真正常见的做法是进行建模后的残差分析

 

方差分析模型的检验层次

1.对总模型进行检验

2.对模型中各交互效应、主效应进行检验(要先分析交互项)

   2.1交互项有统计学意义:分解为各种水平的组合情况进行检验

   2.2交互项无统计学意义:进行主效应各水平的两两比较

  案例一:固定因素--因变量

超市规模、货架位置与销量的关系

现希望现希望考察对超市中销售的某种商品而言,是否其销售额会受到货架上摆放位置的影响,除此以外,超市的规模是否也会有所作用?甚或两者间还会存在交互作用?

Berenson和Levine(1992)着手研究了此问题,他们按照超市的大小(三水平)、摆放位置(四水平)各随机选取了两个点,记录其同一周内该货物的销量。

 数据集如下

1A45.01A50.01B56.01B63.01C65.01C71.01D48.01D53.02A57.02A65.02B69.02B78.02C73.02C80.02D60.02D57.03A70.03A78.03B75.03B82.03C82.03C89.03D71.03D75.0

 

第一步:检验一下实验是否为均衡实验

分析--统计描述--交叉表

各单元元素数量一致,所以为均衡实验

第二步:模型检验

分析--一般线性模型--单变量(单个因变量)

结果解读

首先校正模型的SIg.显著性检验小于显著性水平0.05,所以拒绝原假设,所以使用线性来拟合这个模型是有效的

下面的截距、size、position、size*position和下面表达式相对应

 先观察主效应显著性为0.663大于显著性水平0.05,所以没有意义,可以剔除重新再做模型,假如不剔除会对后面有意义的产生影响,结果也会不准确

如何剔除(分析--一般线性模型--单变量--设定)

 

之后重建模型检验得到这样 

之后我么就可以看主效应size、position两个固定因素各自的单因素方差分析,进行主效应各水平的两两比较

具体详细就不讲了,大家可以参考我的博客https://blog.csdn.net/LuYi_WeiLin/article/details/89917656

 

 第三步:模型检验

变量的独立性通过,正态检验和xwdmj性我们通过残差图来查看

分析--一般线性模型--单变量

一般我们只关心这幅图 

如何放大,只显示这张图(双击这张图)

按照下面的选项操作

 

残差图所有点都在正负3以内,没什么大问题,所以也满足正态检验和xwdmj性,所以该题用多因素方差分析模型是适用的 

 

 

估计边界均值

所谓边际均值,就是在控制了其他因素之后,只是单纯在一个因素的作用下,因变量的变化,在普通的分析中,因变量的变化都是几个因素共同作用的结果.

 

画出轮廓图

交互项不影响,轮廓图几条应平行

 

案例二:随机因素--因变量

现希望研究四种广告的宣传效果有无差异,具体的广告类型为:店内展示、发放传单、推销员展示、广播广告。在本地区共有几百个销售网点可供选择,出于经费方面的考虑,在其中随机选择了18个网点进入研究,各网点均在规定长度的时间段内使用某种广告宣传方式,并记录该时间段内的具体销售额。为减小误差,每种广告方式在每个网点均重复测量两次。

数据集如下

1.01.041.02.01.061.02.01.044.03.01.061.03.01.086.04.01.076.04.01.075.05.01.057.05.01.075.06.01.052.06.01.063.07.01.033.07.01.052.08.01.069.08.01.061.09.01.060.09.01.043.010.01.061.010.01.069.011.01.041.011.01.043.012.01.066.012.01.051.013.01.065.013.01.060.014.01.058.014.01.052.015.01.050.015.01.055.016.01.044.016.01.052.017.01.045.017.01.045.018.01.058.018.01.060.01.02.075.01.02.068.02.02.057.02.02.075.03.02.076.03.02.083.04.02.077.04.02.066.05.02.075.05.02.066.06.02.072.06.02.076.07.02.076.07.02.070.08.02.081.08.02.086.09.02.063.09.02.062.010.02.094.010.02.088.011.02.054.011.02.056.012.02.070.012.02.086.013.02.087.013.02.084.014.02.065.014.02.077.015.02.065.015.02.078.016.02.079.016.02.080.017.02.062.017.02.062.018.02.075.018.02.070.01.03.063.01.03.058.02.03.067.02.03.082.03.03.085.03.03.078.04.03.080.04.03.087.05.03.087.05.03.070.06.03.062.06.03.077.07.03.070.07.03.068.08.03.075.08.03.061.09.03.040.09.03.055.010.03.064.010.03.076.011.03.040.011.03.070.012.03.067.012.03.077.013.03.051.013.03.042.014.03.061.014.03.071.015.03.075.015.03.065.016.03.064.016.03.078.017.03.050.017.03.037.018.03.062.018.03.083.01.04.069.01.04.054.02.04.051.02.04.078.03.04.0100.03.04.079.04.04.090.04.04.083.05.04.077.05.04.074.06.04.060.06.04.069.07.04.033.07.04.068.08.04.079.08.04.075.09.04.073.09.04.065.010.04.0100.010.04.070.011.04.061.011.04.053.012.04.068.012.04.073.013.04.068.013.04.079.014.04.063.014.04.066.015.04.083.015.04.065.016.04.076.016.04.081.017.04.073.017.04.057.018.04.074.018.04.065.0

首先还是看实验是否均衡

 

所以为均衡实验,因为网点是随机抽取的,所以不能用固定因素,要用随机因素

 

有随机因素就没有总的模型检验了,该因素所有可能的取值在样本中没有都出现,总的表达式无法表达出来,所以就没有总的模型检验

看交互项adstype * area  显著性大于0.05,剔除

 

之后我们对adstype、area 进行单因素方差分析(随机因素就没有两两比较的方法了)

adstype可以进行两两比对,划分同类子集

模型检验

残差分析


    

 总体在正负3以内,没超过正负4,还行

 看其轮廓图

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。