回归分析 是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。
回归分析的任务就是:
通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。
线性回归有3个关键词:相关性、Y、X
相关性≠因果性Y为因变量X为自变量回归分析的使命:
1、识别重要变量
识别并判断,哪些X变量是同Y相关的,哪些变量不相关。去除了那些于Y无关的自变量X,那么剩下的,就都是重要的、有用的X变量了。
2、判断相关性的方向
这些有用的变量同Y的相关是正的,还是负的呢?
3、估计权重(回归系数)
在确定了重要自变量X后,我们还需要给X赋予一定的地位(权重,也就是不同的回归系数),进而我们可以知道这些重要变量X中,不同变量之间的相对重要程度。
本例采用的是模拟数据,将Excel中的数据导入到SPSS中。
从菜单栏中依次点击:图形→旧对话框→散点图/点状图→简单散点图;再添加趋势线。
***散点图的意义:***该步骤Step2,是为了 更加直观地观察出 X于Y 之间是否线性相关。
如果散点图都不呈现出一元线性相关,也没有必要 分析一元线性回归关系了。(此时应该考虑 更换数学模型。)
也可以直接在Excel做散点图。
在菜单栏上依次点击:分析→回归→线性
具体操作给大家一个视频:SPSS线性回归操作
B站上类似的操作视频很多,大家也可以自己找找更适合自己的教学视频。
SPSS的数据分析 “输出”窗口中会出现很多图表,接下来我们来分析分析一些重要的图表。
图表1:【输入/除去的变量】
此表是拟合过程中变量输入/除去模型的情况记录。
由于我们只引入了一个自变量,所以只出现了一个模型1(在多元线性回归中就会依次出现多个回归模型)
图表2:【模型摘要】
此表为所拟合模型的情况汇总,对于模型1:
【注意】R方(拟合优度):是回归分析的决定系数,说明自变量和因变量形成的散点图与回归曲线的接近程度,数值介于0和1之间,这个数值越大说明回归的越好,也就是散点越集中于回归线上。
图表3:【ANOVA】-Analysis of variance
此表是所用模型的检验结果,一个标准的方差分析表。
显著性(Sig./Significant)值是回归关系的显著性系数。Sig.是F值的实际显著性概率,即P值。
由表可见,显著性为0.000,因此我们的这个回归模型时具有统计学意义的,可以继续看下面【系数】
图表4:【系数】
由表中显著性,可知常量和x系数 都是具有统计学意义的。