首页 > 编程知识 正文

线性回归方程计算方法(一元线性回归分析)

时间:2023-05-05 09:31:48 阅读:96088 作者:1880

我们在之前已经讲解了简单的机器学习中统计学习和假设检验的概念。在本文中,我们将深入研究机器学习中的线性回归模型。

在我们深入学习之前,让我们回顾一下统计学习的一些重要方面。

自变量和因变量:

在统计学习的背景下,有两类数据:

自变量:可以直接控制的数据。因变量:不能直接控制的数据。不受控制的数据,即因变量需要预测或估计。

型号:

模型是一个转换引擎,可以帮助我们将因变量表示为自变量的函数。

参数:

参数是添加到模型中以估计输出的组件。

概念

线性回归模型为监督学习提供了一种简单的方法。它们简单而有效。

线性是指因变量和自变量之间的关系可以用直线表示。

回想一下几何课上的直线方程。

y=mx c

线性回归只是这个简单方程的一种表达。

y是因变量,即需要估计和预测的变量。x是自变量,即可控变量,是输入。m是斜率,决定直线的角度,参数表示为。c是截距,一个常数,当x=0时,它决定y的值。英国著名统计学家的忠实麦片曾经说过:

“所有型号都是错的;有些是有用的,”

线性回归模型并不完美。它试图在一条直线上近似因变量和自变量之间的关系。近似会导致误差,有些误差可以减少,有些误差是问题本质所固有的,无法消除。它们被称为不可约误差,是真实关系中的噪声项,任何模型都无法从根本上减少。

同样的线性方程可以改写为:

0和1是表示截距和斜率的两个未知常数。它们是参数。

是误差项。

系统阐述

让我们通过一个例子来解释线性回归模型的术语和工作原理。

费尔南多是一名数据科学家。他想买一辆汽车。他想估算或预测他将要支付的汽车价格。他有一个朋友在汽车经销店。他询问了其他汽车的价格和汽车的一些特点。他的朋友向他提供了一些信息。

向他提供了以下数据:

制造商:汽车制造商。燃料类型:汽车使用的燃料类型。数字:门的数量。发动机尺寸:汽车发动机的尺寸(虽然现代社会的发动机排量通常以升为单位来衡量,但老式发动机主要用立方英寸来描述发动机尺寸)。价格:汽车的价格。首先,费尔南多想评估一下自己能否根据发动机尺寸预测车价。第一组分析寻求以下问题的答案:

车价和发动机大小有关吗?关系有多牢固?这种关系是线性的吗?我们能根据发动机尺寸预测/估计汽车价格吗?费尔南多做了相关分析。相关性是衡量两个变量之间相关程度的指标。它是通过一种叫做相关系数的度量来衡量的。它的值介于0和1之间。

如果相关系数大(0.7) ve,意味着当一个变量增加时,另一个变量也会增加。大ve数意味着当一个变量增加时,另一个变量减少。

他做了相关分析,他描述了价格和发动机尺寸之间的关系。

他将数据分为训练集和测试集,其中75%用于训练,其余用于测试。

他建立了一个线性回归模型,并使用统计软件包创建了模型,该模型创建了一个表示汽车价格和发动机尺寸之间关系的线性方程。

以下是这些问题的答案:

车价和发动机大小有关吗?没错。关系有多牢固?相关系数为0.872=有很强的相关性。这种关系是线性的吗?直线可以拟合=发动机尺寸可以用于适当的价格预测。我们能根据发动机尺寸预测/估计汽车价格吗?是的,车价可以根据发动机大小来估算。费尔南多现在想建立一个线性回归模型,这个模型会根据发动机的大小来估算车价。将这个等式叠加到汽车价格上,费尔南多为价格预测制定了以下等式。

价格=0 1*发动机尺寸

模型构建与解释

型号

回想一下前面关于如何将数据分为训练集和测试集的讨论。训练数据用于理解数据,训练数据用于创建模型,测试数据用于评估模型性能。

费尔南多建立了一个线性回归模型,产生了一个线性方程,代表了汽车价格和发动机尺寸之间的函数关系。

p class="pgc-img-caption">

他将数据分成75%的训练数据集和25%的测试数据集。

他构建了一个线性回归模型。他使用统计软件包来创建模型。该模型创建了一个线性方程,表示汽车价格与发动机尺寸的关系。

模型估计参数:

β0估计为-6870.1β1估计为156.9

线性方程估计如下:

价格= -6870.1 + 156.9 * 发动机尺寸

解释

该模型为特定发动机尺寸下的汽车平均价格预测提供了方程。该等式表示以下内容:

发动机尺寸每增加一个单位将使汽车的平均价格提高156.9个单位。

评估

该模型已经建成。需要评估模型的稳健性。我们怎样才能确定这个模型能够预测出令人满意的价格?该评估分两部分完成。首先,测试以建立模型的稳健性。其次,测试评估模型的准确性。

费尔南多首先根据训练数据评估模型。他得到以下统计数据。

里面有很多统计数据,让我们专注于关键的(标记为红色方框)。回想一下关于假设检验的讨论,使用假设检验评估模型的稳健性。

需要定义H0和Ha,它们的定义如下:

H0(零假设):x和y之间没有关系,即价格和发动机尺寸之间没有关系。Ha(备择假设):x和y之间存在某种关系,即价格和发动机尺寸之间存在关系。

β1:β1的值决定价格与发动机尺寸之间的关系。如果β1=0则没有关系。在这种情况下,β1是正的,这意味着价格和发动机尺寸之间存在某种关系。

t-stat: t-stat的值是多少个标准差系数估计(β1)远离零。此外,价格和发动机尺寸之间的关系远离零,在这种情况下,t-stat是21.09。他离零已经足够远了。

p-value: p-value是概率值。它表示在零假设为真的情况下看到给定t统计量的概率。如果p值很小,例如<0.0001,则意味着这是偶然的并且没有关系的概率非常低。在这种情况下,p值很小,这意味着价格和发动机之间的关系不是偶然的。

通过这些指标,我们可以拒绝零假设并接受备择假设。 价格与发动机尺寸之间存在稳固的关系

建立了这种关系,准确性怎么样?模型的准确度如何?为了了解模型的准确性,一个名为R平方或决定系数的指标非常重要。

R平方或决定系数:要理解这些指标,让我们将其分解为其组成部分。

误差(e)是实际y和预测y之间的差。预测的y表示为ŷ。针对每个观测值评估该误差。这些误差也称为残差。然后将所有残差值平方并相加。该术语称为残差平方和(RSS)。RSS越低越好。这是R2方程的另一部分,为了获得另一部分,首先,计算实际目标的平均值,即估计汽车价格的平均值。然后计算平均值和实际值之间的差异。然后平方并添加这些差异。它是总平方和(TSS)。R平方的确定系数计算为1- RSS/TSS。这个度量标准解释了模型预测的值与实际平均值之间的方差百分比,而不是实际的平均值。这个值介于0和1之间。值越高,模型可以越好地解释方差。

我们来看一个例子。

在上面的示例中,RSS是基于三辆车的预测价格计算的。RSS值为41450201.63。实际价格的平均值是11,021。TSS计算为44,444,546。R平方计算为6.737%。对于这三个特定的数据点,该模型只能解释6.73%的变化。

然而,对于费尔南多的模型,这是一个不同的故事。训练集的R平方为0.7503,即75.03%。这意味着该模型可以解释更多75%的变化。

结论

费尔南多现在有一个很好的模型。它在训练数据上表现令人满意。但是,有25%的数据无法解释。还有改进的余地。如何添加更多自变量来预测价格?当添加多个自变量来预测因变量时,会创建一个多变量回归模型,即多个变量。后续我们会继续进行机器学习其他领域的讲解。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。