首页 > 编程知识 正文

spss实用教程,spss实例分析教程

时间:2023-05-06 15:54:34 阅读:185558 作者:826

spss案例分析教程

原文地址: https://www.ixu eshu.com/document/934 cf7bb1 ff 99338318947 a 18 e7f 9386.html

主成分分析和因子分析与SPSS的实现

一.主成分分析

)在问题提出问题研究中,为了消除遗漏和准确性,往往会全面地取得很多指标进行分析。 例如,为了研究某些疾病的影响因素,可能要收集患者的人口学资料、病史、生命体征、检查检查等几十项指标。 将这些指标直接纳入多元分析,不仅会使模型变得复杂不稳定,而且由于变量之间的多重共线性可能会引起较大的误差。 有办法在浓缩信息、减少变量数量的同时消除多重共线性吗? 此时,主成分分析隆重登场。 )2)主成分分析原理主成分分析的本质是坐标的旋转变换,将原有的n个变量重新线性组合,生成n个新变量。 这些变量互不相关,被称为n个“分量”。 同时遵循方差最大化原则,保证初始分量方差最大,然后依次递减。 这n个成分按照方差从大到小的顺序排列,其中最初的m个成分可能包含了原变量的方差(以及变异信息)的大部分。 这m个分量成为原始变量的“主要分量”,他们包含了原始变量的大部分信息。 请注意,生成的主要成分是重新组合的原始变量“综合变量”,而不是筛选出的剩馀变量。 我们用最简单的二维数据直观地说明主成分分析的原理。 假设现在有2个变量X1、X2,在坐标上画散点图如下。

我知道他们之间有相关关系。 将整个坐标轴逆时针旋转45,形成新的坐标系Y1、Y2,如下图所示。 根据坐标变化的原理,可以计算出y1=sqrt(2)/2*x1sqrt) x2y2=sqrt) )2*xxrt )。 通过重新进行X1,X2的线性组合,得到了两个新的变量Y1,Y2。 此时,Y1,Y2不再相关,且Y1方向的变异(方差)较大,Y2方向的变异(方差)较小时,我们可以将Y1作为X1,X2的主要成分提取出来,参加之后的统计分析。 这是因为我拥有原变量的大部分信息。 这样就解决了两个问题。 维和共线性的消除。 对于二维以上的数据,不能再用上面的几何图形直观地表示了,只能用矩阵变换来求解,但本质思想是一样的。

二、因子分析(一)原理与方法:因子分析是主成分分析的扩展。 在主成分分析过程中,新变量是原始变量的线性组合,即对多个原始变量进行线性(坐标)变换以得到新变量。 因子分析将原变量间的内在相关结构分组,相关性强的分为组,组间相关性较弱。 这样,各组的变量表示一个基本要素(共同因子)。 通过原变量之间的复杂关系分解原变量,得到公共因子和特殊因子。 将原始变量表示为公共系数的线性组合。 其中,共同因子是所有原始变量共同的特征,特殊因子是原始变量特有的部分。 因子分析强调新变量(因子)实际含义的解释。 举个例子,比如市场调查中食品五个指标(x1-x5 ) :味、价格、风味、是否是快餐,收集能量,经过因子分析,x1=0.02 * z 10.99 * z2e1x2=0.94 * Z10 z2e4x5=0.97 * Z10.02 * z2e1(以上数字实际上表示变量之间的相关系数,值越大相关越大) )第一个公仔Z1主要与价格、快餐与否、能源相关,“价格与营养” 表示“味道”的e1-5是特殊的因子,是公子无法解释的公子,另外,也可以将公因子z1、z2表示为原变量的线性组合,用于后续的分析。 (二)使用条件:一)样品量足够大。 通常,要求样本量为变量的5倍以上,且大于100例。 )2)原始变量之间存在相关性。 如果变量之间是独立的,则无法使用因子分析。 SPSS可通过KMO检查和Bartlett球形检查判断。 )3)生成的公共因子具有实际意义,必要时可以通过因子旋转(坐标变化)达到。 三、主成分分析与因子分析的关联与区别关联:两者都是降低维度和信息浓缩的途径。 生成的新变量都表示原变量的大部分信息,是相互独立的,可用于后续的回归分析、判别分析、聚类分析等。 区别:)1)主成分分析是用方差最大化的方法生成的新变量,强调新变量对方差的贡献程度如何,不在乎新变量是否有明确的实际意义。 )因子分析,重点在于新变量具有实际意义,能够解释原变量之间的内在联系

构。 SPSS没有提供单独的主成分分析方法,而是混在因子分析当中,下面通过一个例子来讨论主成分分析与因子分析的实现方法及相关问题。   一、问题提出   男子十项全能比赛包含100米跑、跳远、跳高、撑杆跳、铅球、铁饼、标枪、400米跑、1500米跑、110米跨栏十个项目,总分为各个项目得分之和。为了分析十项全能主要考察哪些方面的能力,以便有针对性的进行训练,研究者收集了134个顶级运动员的十项全能成绩单,将通过因子分析来达到分析目的。   二、分析过程   变量视图:   数据视图(部分): 菜单选择(分析->降维->因子分析):

打开因子分析的主界面,将十项成绩选入”变量“框中(不要包含总分),如下: 点击”描述“按钮,打开对话框,选中”系数“和”KMO和Bartlett球形度检验“:

上图相关解释: ”系数“:为变量之间的相关系数阵列,可以直观的分析相关性。 ”KMO和Bartlett球形度检验“:用于定量的检验变量之间是否具有相关性。 点击”继续“,回到主界面,点击”抽取“,打开对话框。 ”方法“ =>”主成分“,”输出“=>”未旋转的因子解“和”碎石图“,”抽取“=>”基于特征值“,其余选择默认。

解释: ①因子抽取的方法:选取默认的主成分法即可,其余方法的计算结果可能有所差异。 ②输出:”未旋转的因子解”极为主成分分析结果。碎石图有助于我们判断因子的重要性(详细介绍见后面)。 ③抽取:为抽取主成分(因子)的方法,一般是基于特征值大于1,默认即可。 点击”继续“,回到主界面,点击”确定“,进入分析。 输出的主要表格如下: (1)相关性检验 因子分析要求变量之间有相关性,所以首先要进行相关性检验。首先输出的是变量之间的相关系数矩阵:

可以直观的看到,变量之间有相关性。但需要检验,接着输出的是相关性检验: 上图有两个指标:第一个是KMO值,一般大于0.7就说明不了之间有相关性了。第二个是Bartlett球形度检验,P值<0.001。综合两个指标,说明变量之间存在相关性,可以进行因子分析。否则,不能进行因子分析。 (2)提取主成分和公因子 接下来输出主成分结果:

这就是主成分分析的结果,表中第一列为10个成分;第二列为对应的”特征值“,表示所解释的方差的大小;第三列为对应的成分所包含的方差占总方差的百分比;第四列为累计的百分比。一般来说,选择”特征值“大于1的成分作为主成分,这也是SPSS默认的选择。 在本例中,成分1和2的特征值大于1,他们合计能解释71.034%的方差,还算不错。所以我们可以提取1和2作为主成分,抓住了主要矛盾,其余成分包含的信息较少,故弃去。 下面,输出碎石图,如下: 碎石图来源于地质学的概念。在岩层斜坡下方往往有很多小的碎石,其地质学意义不大。碎石图以特征值为纵轴,成分为横轴。前面陡峭的部分特征值大,包含的信息多,后面平坦的部分特征值小,包含的信息也小。 由图直观的看出,成分1和2包含了大部分信息,从3开始就进入平台了。 接下来,输出提取的成分矩阵:

上表中的数值为公因子与原始变量之间的相关系数,绝对值越大,说明关系越密切。公因子1和9个运动项目都正相关(注意跑步运动运动的计分方式,时间越短,分数越高),看来只能称为“综合运动”因子了。公因子2与铁饼、铅球正相关,与1500米跑、400米跑负相关,这究竟代表什么意思呢?看来只能成为“不知所云”因子了。 (三)因子旋转 前面提取的两个公因子一个是大而全的“综合因子”,一个不知所云,得到这样的结果,无疑是分析的失败。不过,不要灰心,我们可以通过因子的旋转来获得更好的解释。在主界面中点击“旋转”按钮,打开对话框,“方法”=>“最大方差法”,“输出”=>“旋转解”。

点击“继续”,回到主界面点击“确认”进行分析。输出结果如下: 这是选择后的成分矩阵。经过旋转,可以看出: 公因子1得分越高,所有的跑步和跨栏成绩越差,而跳远、撑杆跳等需要助跑类项目的成绩也越差,所以公因子1代表的是奔跑能力的反向指标,可称为“奔跑能力”。 公因子2与铁饼和铅球的正相关性很高,与标枪、撑杆跳等需要上肢力量的项目也正相关,所以该因子可以成为“上肢力量”。 经过旋转,可以看出公因子有了更合理的解释。 (四)结果的保存 在最后,我们还要将公因子储存下来供后续使用。点击“得分”按钮,打开对话框,选中“保存为变量”,方法采用默认的“回归”方法,同时选中“显示因子得分系数矩阵”。

SPSS会自动生成2个新变量,分别为公因子的取值,放在数据的最后。同时会输出一个因子系数表格:

由上图,我们可以写出公因子的表达式(用F1、F2代表两个公因子,Z1~Z10分别代表原始变量):

F1 = -0.16*Z1+0.161*Z2+0.145*Z3+0.199*Z4-0.131*Z5-0.167*Z6+0.137*Z7+0.174*Z8+0.131*Z9-0.037*Z10 F2同理,略去。 注意,这里的变量Z1~Z10,F1、F2不再是原始变量,而是标准正态变换后的变量。

将教程和案例整合在一起了,方便大家学习

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。