首页 > 编程知识 正文

线性回归算法步骤(四元线性回归方程)

时间:2023-05-04 12:49:52 阅读:80545 作者:4641

作者:少量的helper

来源:我可以帮你一点忙

上一篇文章主要介绍了回归系数、样本和整体回归方程、预测值和残差等、回归关键词,今天我们结合一种情况来看一下如何进行完整的回归分析,准确地说是多重线性回归(Multiple Linear Regreesion )。

评论:多重线性回归

多重线性回归一般是指自变量x有多个,原因变量y只有一个。 以上主要以简单线性回归为例进行了说明,但两者的差主要在于自变量x的数量,只有一个x时称为简单线性回归。

在实际的APP中,当然很少只包含一个自变量。 多重线性回归一般也称为“多元线性回归”,但我支持“多重”的说法。 因为“多变量”一般指“因变量y”有多个。

在上一篇文章中,我们知道进行线性回归是构建y和x的线性关系。 主要目的有两个,一是确定x对y的影响程度。 也就是回归系数的计算。 第二,从x预测y。

这里最重要的指导方针之一是,y需要是定量变量,类似于“收入”、“得分”等。 另一方面,对x没有这样的要求,也可以是“教育年限”、“年龄”等定量的要求; 也可以是“性别”、“民族”等分类变量。

案例从某高三女生体检数据中,随机抽取20名作为样本,数据包括体重(公斤)、胸围)、肩宽)、肺活量),分析zrdyl肺活量的影响因素,数据见下表。

首先,简单看一下上表的数据,我想讨论一下女生肺活量的影响因素,所以回归的主要因素变量是“肺活量(y )”,根据常识和数据,这里的y是定量变量。

的其他数据进行收集作为潜在的影响因素(x )纳入回归方程,分别为体重、胸围、肩宽。 可以很容易地判断这三个自变量都是定量变量。

(对于还不清楚变量类型如何判断的学生,我们来回顾一下)

在此,为了进行回归分析,一个是判断这些x是否全部对y产生影响(整体回归系数是否不为0 ); 二是通过结构的回归方程,未来根据x的值计算y的预测值。

多重线性回归的SPSS操作

回归分析用SPSS操作的步骤如下。

SSS数据输入格式

SPSS回归分析菜单(线性表示线性回归) ) )。

回归操作窗口以从属为原因变量,以从属为自变量,分别填充

上图的“Method”被称为“参数筛选”方法。 做线性回归分析的关键是寻找y的影响因素。 这里的“寻找”意味着“筛选”。

例如,在这个例子中,我们加入了三个参数。 就是通过回归分析,找出真正影响y的变量。 如果三个x可能影响最终结果,则最终回归方程可能有三个x,也可能没有一个x。

“方法”下拉菜单包含许多选项。

Enter (将自变量全部强制并入回归式,不排除回归系数p的值大于0.05的情况;

Stepwise、Remove、Backward、Forward,这些都是软件筛选自变量的方法,虽然名称不同,但思想相近。 主要根据回归系数检验的p值是否小于0.05、是否还有0.1来判断回归方程中是否应该有这个变量。

一般来说,没有哪个筛选方法最好,但在实际应用中常见的是Stepwise和Backward。 建议自己进行回归分析时尝试不同的方法,选择自己认为合适的方法。

在这种情况下使用Stepwise法,在中文中称为“分步法”或“分步法”。

yle="text-align: justify">多重线性回归的结果分析

以下为SPSS分析结果展示:

表1:回归方程的拟合程度

上表最左侧一列为“Model”,表示的是SPSS筛选变量的过程,因为我们选择的是stepwise,所以每进行一步,即每筛选一个变量,就称为一个Model,比如Model"1"表示只纳入1个自变量,Model“2”表示纳入2个,“3”表示纳入3个,”4“表示最终模型剔除了一个自变量,仅纳入2个自变量。

表格第2-4列分别为”R、R Square、Adjusted R Square“,一般的教科书讲的很多,表示的是回归方程对因变量的解释程度,数值越大,解释度越高。但它又是一个比较尴尬的数,实际应用简单参考即可。

表2:回归方程的整体检验

这里的Model和上表1中表示的是同一个意思,代表了包括不同自变量的回归方程。对于回归方程的检验,一般来讲,都是有统计学意义的,看最后一列(Sig.),即P值均小于0.05。

表3:回归系数结果

表3中的Model详细展示了变量的筛选过程,比如在Model 3中,回归方程将三个自变量”肩宽、体重、胸围“全部纳入,但是发现,”肩宽“这个变量的Sig.(P值)大于0.1了,于是就将它剔除出去,从而得到模型4——只纳入”体重和胸围“两个自变量,对照后面的P值结果,均小于0.05。

以上只是一种筛选变量的一种方法(Stepwise),通过统计软件P值自动进行,这并不意味,所有的线性回归分析均只能通过这种方法筛选,我们常说需要结合专业知识判断,在做回归分析时也不例外。

如果回归分析的结果与专业知识相悖,比如根据专业知识有影响的变量却被软件剔除,那我们首先得慎重思考回归的结果是否可信,比如是否满足前文提及的LINE条件,是否出现了多重共线性问题等等;如果经过诊断分析发现这些问题都不存在,在研究报告或论文中,仍可以如实地报告结果,为后面的研究提供参考。

本案例,我们还是依照统计软件的结果筛选变量,得到的最终回归方程为:

根据上表,我们写出本研究的回归方程:

上述结果表示,可以认为体重和胸围是影响该校一年级zrdyl肺活量的主要因素,保持胸围不变,体重增加1kg,估计肺活量平均增加0.081L(回归系数”0.081“的含义,在多重线性回归分析中也可称作”偏回归系数“);保持体重不变,胸围增大1cm,估计肺活量平均增加0.046L(回归系数”0.046“的含义)。

另外,上表最后一列提供了一个”标准化偏回归系数“,这是将XY分别标准化之后再进行回归分析,如下:

”标准化偏回归系数“可以用来比较不同的自变量X对Y的影响程度。本例中,体重和胸围的标准化偏回归系数分别为0.644和0.436,意味着体重对肺活量的影响大于胸围对肺活量的影响。

以上即为回归分析的全过程,最后留给大家一个思考题,这里进行的分析,表示的是X和Y的相关关系,还是因果关系?欢迎在评论区留言讨论。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。