首页 > 编程知识 正文

标准化回归系数的含义,求回归标准误差

时间:2023-05-06 06:55:50 阅读:16376 作者:1455

前期内容介绍了如何对数据进行标准化处理,将原连续型变量转化为无量纲标准化数值,消除不同变量之间性质、维度、订单等属性差异的影响,使不同变量的效果大小能够比较。 因此,数据标准化处理也广泛应用于实际统计分析。

那么,说到不同变量的效果大小,一定会联想到多因素回归模型得到的回归系数。 例如,假设自变量分别为身高和体重,则身高每增加1cm,或者体重每增加1kg,对主要因素变量y的影响大小可以从回归系数中容易看出,但两者比较,到底谁的作用大谁的作用小?

原始回归系数已经不能回答这样的问题,需要用标准化回归系数来判断,今天我们将在回归模型中介绍这个标准化回归系数是什么样的。

标准化回归系数

VS

未标准化回归系数

1、未标准化回归系数

通常,在建立多因素回归模型时,方程会出现未标准化的回归系数,这是对应于方程不同自变量的原始回归系数。 这反映了在其他因素不变的情况下,其自变量每变化1个单位时对因素的作用大小。 通过未标准化回归系数和常数项构建的方程,可以预测因素变量并得出结论。

2、标准化回归系数

另一方面,关于归一化回归系数,是同时对自变量和因子进行归一化处理后得到的回归系数,数据通过进行归一化处理,消除了维数、数量级等差异的影响,可以在不同变量之间进行比较,因此可以使用归一化回归系数比较不同自变量对因子的作用大小

通常我们主要关注的是标准化回归系数的绝对值大小,绝对值越大,可认为它对因变量的影响就越大

3、两者的区别

非归一化回归系数表示自变量变化对因变量的绝对作用大小,归一化回归系数表示不同自变量对因变量的相对作用大小,可以表明不同自变量对因变量影响的重要性。

用归一化回归系数构建方程,得到的结论有偏差。 此时,自变量和因变量的数据被转换成为标准化数据,因此归一化回归系数不能用于回归方程的构建。

标准化回归系数

VS

每变化1个标准差的回归系数

在上述文章《回归模型中引入连续变量,还有哪些玩法?》中,介绍了对于连续型变量,在编入多要素回归模型时,通过对原自变量进行标准化处理,并带入回归模型,从而得到与该自变量的标准偏差每变化一个相对应的回归系数。

那么,此时假设有两个参数,一个参数的标准偏差为1,另一个参数的标准偏差为100。 两者都会对原因变量产生一定的影响。 如果使用上述标准偏差每增加一个时对应的回归系数,判断哪个自变量对主要因素变量的影响更大,则在相同的标准偏差变化了一个的情况下,第一自变量需要变化一个单位,第二自变量需要变化100个单位,因此难以改变标准偏差大的自变量此时,我们需要用标准化回归系数拯救现场。

每增加一个标准差,对应的回归系数反映了自变量每改变一个标准差,变量的原始值就发生变化的影响。 标准化回归系数反映了自变量每变化一个标准差时变量变化一个标准差带来的影响。

在计算每增加一个标准差对应的回归系数时,要计算只需要将原自变量标准化的归一化回归系数,必须同时对原自变量和因子进行归一化处理,归一化为与标准正态分布对应的值,然后建立回归模型。

SPSS操作

一、研究实例

一位研究者收集100名研究对象的最大摄氧量(VO2 max ),记录他们的年龄、体重、心率等信息,研究年龄、体重、心率对VO2 max的作用大小,同时上述任一因素对VO2 max

二、操作步骤

1、多重线性回归

(操作步骤见文章《SPSS实例教程:多重线性回归,你用对了么?》 )

根据多元线性回归分析的结果,回归方程可以写为

VO2max=72.5810.188 * age0.184 * weight0.059 * heart _ rate

实际上,可以看到SPSS的回归结果不仅显示了“未标准化回归系数”(Unstandardized Coefficients ),还显示了“标准化回归系数”(Standardized Coefficients )。

注意,未标准化回归系数更大的自变量,其标准化回归系数不一定更大。 例如,在本例中,age未归一化回归系数的绝对值

为0.188,大于weight的绝对值0.184,但是weight的标准化回归系数绝对值为0.325,却大于age的标准化回归系数绝对值0.200,说明weight对于VO2 max的影响较age更大。

2、数据标准化处理

(操作步骤参考前期推送文章《你听说过数据标准化处理吗?》)

虽然SPSS在回归结果中可以直接输出标准化回归系数,但为了加深对它的理解,我们可以亲自对数据进行一遍标准化处理,对上述结果进行一下验证。

Analyze → Descriptive Statistics → Descriptives → Save standardized values as variables

通过上述步骤分别生成4个标准化处理后的新变量。

3、标准化回归系数

在进行多重线性回归时,以VO2 max的标准化形式作为因变量,以age、 weight、 heart_rate的标准化形式作为自变量构建模型。结果发现,所得的结果与上述结果一致。

相互转换关系

今天我们介绍了未标准化回归系数、每变化1个标准差的回归系数、以及标准化回归系数,最后再跟大家补充一下三者之间的相互转换关系。

每变化1个标准差的回归系数= 未标准化回归系数 * 该自变量的标准差

标准化回归系数= 未标准化回归系数 * 该自变量的标准差 / 因变量的标准差

大家可以根据上述转换关系自行进行验证哈。

哦,对了,细心的同学会发现,在SPSS中多重线性回归可以直接输出标准化回归系数,但是在logistic回归中,SPSS只能输出原始的未标准化的回归系数,如果我们想要计算logistic回归的标准化回归系数,比较不同自变量对因变量的相对作用大小,应该怎么办呢?

根据上述标准化回归系数的转换关系,在logistic回归中随机变量分布函数的标准差为π / √3 = 1.8138[1],故标准化回归系数 = 未标准化回归系数 * 该自变量的标准差 / 1.8138,即可计算logistic回归的标准化回归系数。

参考文献

[1] 潇洒的火龙果. 多元Logistic分布及其参数估计[D]. 北京工业大学, 2007.

医咖会微信:medieco-ykh

关注医咖会,及时获取最新统计教程

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。