在只考察一个自变量对因变量的影响时,我们称之为简单一元线性回归;在大量考察自变量时,许多人习惯上将其称为多元线性回归;在统计学上,为了避免与多元统计方法的冲突,我们建议将其称为多元线性回归。
案例背景
这是一组梅国50个州的犯罪率数据,包括人口、面积、收入、文盲率、高中毕业率、霜冻天数和犯罪率共7个指标。 我现在想考察一下州的犯罪率和其他因素之间的关系。 SPSS变量视图如下:
研究目标是各州的犯罪率(因素变量),可能的因素(自变量)是人口、面积、收入、文盲率、高中毕业率、霜冻天数。 由于变量犯罪率是连续的数值变量,有多个自变量,可以从研究目标和数据类型中选择多元线性回归分析。
线性关系的初步判断
线性回归要求各自变量与因子之间存在线性关系,可通过相关分析和散点图初步判断。
犯罪率与文盲率、霜冻天数、高中毕业率、人口有明显的线性关系,面积与其他变量普遍无关,越冷地区文盲率越低,高中毕业率越高。
统计学上显著相关系数依次为0.703 (文盲率)、-0.539 (霜冻天数)、-0.488 (高中毕业率)、0.344 (人口)。 除变量外,其他因素两个相关系数均小于0.7,因素之间不存在强相关关系,初步提示共线性问题较弱。
以上分析表明,并不是所有因素都与犯罪率有明显的线性关系,构建多元线性回归可能涉及自变量筛选问题,可以优先选择逐步回归的方法。
共线性问题是由于自变量之间存在强相关关系,其存在影响回归。 目前,我们需要观察6个自变量之间的共线性问题,最常见的依据是关注容忍度Tol和方差膨胀因子VIF。
SPSS在线回归可以输出以下两个指标:
因为VIF是托福的倒数,所以那两个其实是一样的事情,我们只要解读其中之一就可以了。 某个参数的公差Tol<; 如果为0.1,则认为可能存在严重的共线性问题。 相反,VIF>; 10暗示了存在更严重的共线性问题。
本例提示所有自变量的Tol值都大于0.2,没有特别严重的共线性问题,综合相关系数的表达表明该组数据自变量之间的共线性问题并不严重到可以忽略的程度。
开始逐步线性回归
线性回归还要求残差独立、残差正则性、残差方差齐全,这些内容可以在回归后进行残差诊断,异常值的影响也可以在回归后进行检验判断。
现在,我们开始逐步回归。
在【统计】按钮对话框中,建议在默认选项中添加【共线性诊断】、残差【无心雁】、残差【案例诊断】(标准差3倍)。 无心雁检查残差独立性,残差个案诊断排除离群点。
除了考虑残差标准偏差检查离群点外,为了诊断强影响点,建议添加【库克距离】(综合残差和杠杆值)。
在【残差直方图】【残差归一化图】的基础上,增加绘制了以标准化预测值为横轴、标准化残差为纵轴的散点图,主要用于残差归一化、残差方差能级基本条件的判断。
是的,其他参数是默认设置。 点击
回归分析结果解读
逐步回归表明,6个自变量中文盲率和人口数依次纳入模型,其他自变量不在模型中。 前后两个模型基于调整后的r侧,认为模型2更优,在这种情况下模型可以说明变量总变异的54.8%。 不高不低,还有待继续提高。
无心雁统计值为2.18,接近2,认为残差具有独立性,满足条件。
然后,只读取模型2的结果。 在模型检查中,P<; 0.05,表明模型中人口数量、文盲率至少有统计学意义。 模型有统计学意义。
两个自变量具有影响犯罪率的统计学意义。 共线性问题可以忽略。 先别急写方程式。
残差归一化PP图有很多点在对角线直线上,被认为是残差归一化,满足条件。
标准化残差散布图,各点分布比较均匀,未见规律变化。 认为残差方差一致。
以上对残差独立性、残差正规性、残差方差均进行了诊断,认为均符合条件。
接下来,我们来看看异常值是否会影响模型拟合。
首先来看看标准化残差的偏离点。 残差案例诊断显示,内华达州标准化残差为3.094>; 3,可能是离群点,可以考虑处理。
从强影响点来看,最大COOK距离为0.196<; 0.5,被认为几乎没有强烈的影响点。
回归分析结果优化
删除Nevada州的案例数据,看看新的回归模型是如何工作的。
后r方值=0.636,调整前面的模型
(0.548)相比,提升是明显的,即新模型拟合质量明显提升。现在写出多重线性回归方程式:
Y=4.359*文盲率+0.000251*人口数+1.052
本例中,文盲率的回归系数4.4,表示控制其他因素不变时,文盲率上升1%,犯罪率将会上升4.4%。总体来看,我们所得模型可解释各州犯罪率64%的方差(变异)。
全文完
图/文=数据小兵
参考自:《R语言实战》第2版。
好文推荐阅读
本文配套案例数据下载
加入博客配套知识星球,下载本案例数据文件,对照练习,有问题请在知识星球内讨论。
数据小兵坚持写博客已经12年
坚持写微信公号文章6年
坚持更新SPSS视频课程2年
坚持一对一答疑讨论2年
欢迎加入SPSS视频课程
竭诚服务