首页 > 编程知识 正文

线性回归模型因变量,单变量线性回归基本原理

时间:2023-05-03 16:18:09 阅读:193795 作者:4714

                                                                         模型一般形式

       统计模型的一般形式是Y=m(X)+e。其中Y为输出变量、响应变量、因变量、被解释变量;m为均值;e为不可控因子,可以理解为噪声。故模型等式右边是用X组成的函数去描述Y的均值,即模型是在平均的意义下去描述自变量与因变量间的关系,所以在解读模型的时候,我不会将模型说死

       模型中不同形式的m(X)会幻化为不同的模型体系,一般可以将模型分为两大类:

m(X)可以幻化为数学公式,即公式模型,一般比较成熟的都是公式模型,例如回归模型的理论与底蕴就比较完善,模型的假定都是可以进行检验的;m(X)过于复杂,用公式无法描述,需要用算法去描述,即算法模型,例如决策树模型

       其实,建模的作用就是将看上去不太可能的事情联系到一起,同时又能将事情的来龙去脉解释清楚。模型构建之前都有假定,模型构建的好不好、是否合适都取决于模型是否符合假定,当然更核心的还是要关注模型在业务场景的应用,这才是建模的最主要的目的。

                                                                         回归的基本思路

       在模型领域,解释性较好的模型毋庸置疑就是回归。回归模型主要能做两件事情,一是用模型去体现事物间的关系,即解释模型变量间的关系;二是用模型进行预测

       如下图所示,回归建模的工作流程即 将客观现实转化为数据后进行建模,终极目标是用数学模型将事物的来龙去脉解释清楚,作为数据分析师,讲故事的能力真的非常重要。

                                                                           回归模型里的坑

       构建回归模型时经常需要对变量进行变换,在调整量纲的过程中不怕数据长度发生变化的是数据的相对长度发生变化,因为眼睛能看到的空间为欧式空间,欧式空间的弱点是数据很容易受到量纲的影响,所以在构建模型进行数据变换的时候并不能随心所欲的变换。

       数据变换过程中我经常会使用BOX-COX变换,这种变换的方法为:

λ不等于0的时候, λ等于0的时候, 

       这种BOX-COX的数据变换方式有几个特点:

这种变换可以改变分布形状,使数据成为对称甚至正态分布,至少,这种变换能将数据分布往正态分布方向拉一拉;这种变换能保持原数据的大小次序;这种变换对变换结果有比较好的解释。例如:

λ=2的时候变换变为了,可以叫做平方变换;

λ=1的时候变换变为了,可以叫做恒等变换;

λ=0.5的时候变换变为,可以叫做平方根变换;

λ=0的时候可以叫做对数变换;

λ=-0.5的时候,y可以叫做平方根倒数变换;

变换需要y的最大值和y的最小值的比值要大于2,即原始数据Y的最大值和最小值的变化范围不能太小使用BOX-COX变换才是有效的,如果变化范围过小则数据不敏感。但是实际工作中我还没有遇到过比值小于2的情况

 

                                                                         怎样衡量模型好坏

       建模过程中首先应该考虑检验能否通过,如果检验通过,则需要考虑模型好不好、行不行,即必须要进行模型诊断,任何一个模型都有一个正常、期待的样子,即假定,模型建好后都应该看下模型拟合的结果是否符合假定,建模不是很难的过程,困难的点在于数据是否符合假定的衡量。

 

                                                                     简单线性回归模型的假定

       简单线性回归模型有下面几个假定:

线性假定

       所谓线性假定指构建模型时需将模型构建成线性的模式,例如Y=b0+b1x2+e,虽然是x2的形式,但可将x2的整体看做X。即在进行参数估计的时候,自变量X可以采用任何形式,但是模型整体需要保证是类线性的模式;

正交假定

       X和e之间不相关;

独立同分布

       残差间相互独立,方差需齐性,即相等;

Y服从正态分布

       一般直接检验因变量Y是不是正态分布比较麻烦,实际检验的是残差。

                                                                单变量线性回归模型SAS示例

       单变量线性回归模型一般形式为:Y=b0+b1X1+e。其中Y为因变量,X为自变量或预测变量,e为扰动项,b为模型的系数。如下示例建模背景为针对消费与收入构建单变量线性回归模型,下面为SAS实现代码以及我对模型结果的解读思路:

PROC REG DATA=XUHUI PLOTS(ONLY)=ALL;

        Linear_Regression_Model: MODEL cost=income/dw spec;

        OUTPUT OUT=result

        PREDICTED=predicted_cost 

        RESIDUAL=residual_cost 

        STUDENT=student_cost 

        RSTUDENT=rstudent_cost;

RUN;QUIT;

结果解读:

看F检验结果与调整R方:

       F检验,如果P值小则为合理;调整R方,这里调整R方过小,说明这个一元回归模型可能仅仅一个自变量是不够的;

看DW与spc:

       DW为自相关衡量指标,靠近2没有自相关,靠近4和0有自相关,这里DW为1.42有点靠近未判定区。一般,DW只能检验一阶自相关,更复杂的情况无法检验;spc为异方差检验指标,即怀特检验,即下方第一和第二距制定的检验,P值小表明没有异方差。

       其实,DW检验也好、怀特检验也好,都属于弱检验,他们的检验结果的可靠性和实用性不大,只能作为参考,一般实际中我还是会去看残差图再次进行检验。

分布,类似钟型,如果不是钟型可以对Y做Box-Cox变换。

利用预测值残差图查看模型是否符合假定

       如果模型符合假定,那么模型的残差均值为0、方差为常数,图形中方差用范围去体现,比较期望的状态应该是以均值为中心、区间保持稳定。这里残差图的形态说明出现了异方差,即消费越大花钱的方差越大,需要进行变换,这个地方我不太喜欢用最yydyt乘的方法进行处理,一般我会想去用合适的方法对变量进行变换。

拟合诊断图

       第一列图形用于判断数据是否是正态,右上角的四张图用于判断强影响点。

我的公众号:Data Analyst

个人网站:https://www.datanalyst.net/

 

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。