首页 > 编程知识 正文

多元线性回归模型取对数(编写对数回归模型)

时间:2023-05-04 18:44:36 阅读:95955 作者:1984

作者帕拉德普梅农

原始https://towards data sciences.com/data-science-simplified-part-7-log-log-回归-模型-499 ECD 1495 F0

翻译交谈数据害羞的龙猫

在本系列中,我们讨论了简单线性回归模型、多元回归模型和选择正确模型的方法。

费尔南多现在已经做出了一个很好的模型。

价格=-55089.98 87.34 engineSize 60.93马力770.42宽度

不过,费尔南多还是有一些考虑:

如何用常用的比较单位来估算价格变动?发动机尺寸、zxdhs、宽度对应的价格变化弹性有多大?在本文中,我们将解决这些问题。本文将介绍对数回归模型。

概述为了理解对数回归模型,我们首先需要了解导数、对数和指数的概念,然后了解弹性的概念。

* *导数:*导数是表达变化的一种方式——函数在给定点的变化。

如果变量y是x的函数,那么y定义为:

y=f(x)

那么x在y中的导数表示为:

dy/dx=df(x)/dx=f'(x)

这个表达的意思如下:

y的变化相对于x的变化,即如果x变化,y会变化多少?

这正是费尔南多所需要的。他想知道的是价格相对于变量的变化。

以前的多元回归模型的一般形式如下:

也就是说,费尔南多建立了以下模型:

价格=0 1。发动机尺寸,即价格是发动机尺寸的函数。

费尔南多模型的主要目标是预测汽车的价格,其价格取决于发动机的大小,其模型只是表达了发动机大小的变化对应价格变化的规律。

然而,情况可能并非如此。线性模型假设数据是线性的,如下所示:

y=mx c

如果计算y上的导数,将给出以下结果:

dy/dx=m . dx/dx dc/dx

相对于发动机本身的变化,其值始终为1,例如dx/dx=1。

常数相对于任何事物变化的导数总是0,因为它是常数,例如,dc/dx=0。

然后公式变成:

dy/dx=m

将价格导数应用于发动机尺寸将只涉及与发动机尺寸相关的系数。

面对这种情况,我们必须想办法改变它,那么我们来看看指数和对数。

索引:

指数是有两个算子的函数,基(b)和指数(n),定义为b ^ n,其形式如下:

f(x)=b^x

基数可以做成任意正数,欧拉数(e)是统计学中最常用的基数。

几何上,指数关系具有以下结构:

x的增加不会导致y的相应增加,直到达到一定的阈值,x每增加一点,y就会迅速上升。

对数:

对数是一个有趣的符号。在回归模型中,对数具有个性化特征,对数的基本属性是其基数,对数的典型基数是2、10和e。

示例:

2乘以多少等于8?222=8答案是3。也可以表示为log2(8)=3。可以理解为以2为底的8的对数是3。

对数还有另一个常见的基数,叫做欧拉数(E),其近似值为2.71828,常用于统计学。e低的对数称为自然对数。

对数也有很好的变化能力。对数可以把指数关系演变成线性关系。例如,下图显示了Y和X之间的指数关系:

如果对数应用于x和y,则log(x)和log(y)之间的关系是线性的。看起来是这样的:

mg.com/origin/pgc-image/1532500032979d31c8cd77a?from=pc">

弹性:

弹性是衡量一个经济变量对另一个经济变量的响应程度。假设我们有一个函数:Q = f(P)那么Q的弹性定义为:

E = P/Q x dQ/dP

dq/dP是P中Q变化的平均变化

**结合在一起: ** 现在让我们把这三个数学角色放在一起,导数、对数和指数。他们的结合规则如下:

e的对数是1,即log(e)= 1

指数的对数是指数乘以基数

log(x)的导数是:1 / x

设想一个函数y表示,如下:

y = b^x

=> log(y) = x log (b)

那么这是否意味着是线性回归模型?我们可以做数学演化以利用导数、对数和指数吗?我们是否可以重写线性模型方程来找出x的变化率呢?

首先,让我们将y和x之间的关系定义为指数关系。y = α x^β首先将其表示为log-log的函数:log(y)= log(α)+β.log(x)方程y = α x^β看起来并不像是回归模型:Y =β0+β1,其中β0= log(α),β1=β。这个等式现在可以重写为:log(y)=β0+β1.log(X1)

但是如何表达弹性关系呢?我们取log(y)和x的导数,得到如下结果:

d. log(y)/ dx = β1. log(x1)/dx=> 1/y . dy/dx = β1 . 1/x => β1 = x/y . dy/dxβ1的方程是弹性。

构建模型

搞清楚了这些概念后,费尔南多重新构建了一个模型,如下:

log(价格) = β0 + β1. log(发动机大小) + β2. log(zxdhs) + β3. log(宽)

他希望根据发动机尺寸,zxdhs和宽度的变化来估算汽车价格的变化。

费尔南多最终得到了如下的参数:

该模型的方程是:

log(价格) = -21.6672 + 0.4702.log(发动机大小) + 0.4621.log(zxdhs) + 6.3564 .log(宽)

以下是该模型的解释:

所有系数都很重要调整的R平方为0.8276,说明该模型解释了数据变化的82.76%如果发动机尺寸增加4.7%,那么汽车价格将上涨10%如果zxdhs增加4.62%,那么汽车价格将上涨10%如果汽车的宽度增加6%,那么汽车的价格将增加1%

模型评估

费尔南多现在已经建立了对数回归模型。他评估模型在训练和测试数据上的表现。

回想一下,他已经将数据分成了训练和测试集,训练数据用于创建模型,测试数据是不可见的数据。测试数据的性能是真正的考验模型的地方。

在训练数据上,模型表现相当好,调整的R平方为0.8276,说明该模型可以解释82.76%的训练数据变化。为了使模型可以最终被接受,还需要在测试数据方面表现良好。

费尔南多测试测试数据集的模型性能,该模型计算测试数据的调整R平方为0.8186。这意味着即使对于看不见的数据,模型也能解释81.86%的变化。

请注意,该模型估计log(价格),而不是汽车的价格。要将估计的log(价格)转换为价格,需要进行转换。

转换是将log(价格)作为基础e的指数。e^log(价格)= 价格

结语

统计学习奠定了基础,假设检验讨论了空假设和替代假设的概念,简单的线性回归模型使回归简单,然后,进入多元回归模型的世界,然后讨论模型选择方法。在这篇文章中,讨论了对数回归模型。

到目前为止,构建的回归模型只有数值独立变量。下一篇文章将讨论相互作用和定性变量的概念。

相关阅读:

简明数据科学 第一部分:原则与过程

简明数据科学 第二部分:统计学习的关键概念

简明数据科学第三部分:假设检验

简明数据科学 第四部分:简单线性回归模型

简明数据科学 第五部分:多元回归模型

简明数据科学 第六部分:模型选择方法

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。