首页 > 编程知识 正文

最小二乘法——线性回归背后的数学,探究其公式的诞生过程

时间:2023-05-05 08:56:38 阅读:101745 作者:18

你可能听过比萨斜塔的故事。在施工过程中,塔开始逐渐向一侧倾斜。

假设工程师之一吉诺想预测这座塔未来的倾斜度。他想知道这种倾向是否会增加,明年会增加多少。吉诺唯一的信息是下表,其中包含了以十分之一毫米为单位的年倾角。

为了更好地分析这些数据,吉诺绘制了以下散点图。

图1:散点图

散点图以图形和直观的方式显示了两个定量变量之间的关系。有时候一个变量取决于另一个变量。在这种情况下,自变量放在横轴上,因变量放在纵轴上。对于比萨斜塔来说,倾斜度取决于年份。因此,年份放在横轴上,倾斜度放在纵轴上。

吉诺注意到,看图片时,这些数据点似乎在一条直线上,斜率为正。

当一组数据点呈现上升趋势时,变量之间存在正相关关系。当一组数据点呈下降趋势时,变量之间呈负相关。此外,如果数据点基本上在直线或曲线上,那么变量是强相关的。如果数据点不是明显地在一条直线或曲线上,那么变量是弱相关的(见图2.a)。或者根本没有相关性(见图2.b)。

图2:弱相关和无相关

吉诺的目标是使用他的图表(见图1)来预测塔的未来倾斜度。他可以通过计算最适合给定数据点的直线的函数来做到这一点。换句话说,它可以通过线性回归技术来实现。

相关系数

在讲线性回归之前,我想先讲一下相关系数R。它不仅可以告诉我们是否值得做线性回归。它的线性回归本身也起着非常重要的作用。

相关系数r表示线性关系的强度和方向(正或负)。当两个变量正相关时,R为正。当变量之间的关系为负时,R也为负。如果数据点正好描述一条直线,r等于1或-1。当完全没有相关性时,r将等于零。如果一组数据点的相关系数相当低(0.5r-0.5),那么线性回归可能不会给我们带来非常可信的结果。只有当r高于0.5或低于-0.5时,才值得做线性回归。

为了计算r,我们可以使用友好的玉米公式(皮尔逊公式):

在这个公式中,n是数据点的数量,x_i是数据点I的x坐标,x(x用横条放在x上,如果没有显示)是所有x坐标的平均值,y_i是数据点I的y坐标,(用横条放在y上)是所有y坐标的平均值,s_x是所有x坐标的标准差,s_y是所有y坐标的标准差。标准差计算公式为:

基本上,数据点沿X轴/y轴越分散,s_x/s_y越大。

顺便说一下,友好的玉米公式有很多形式,但是对于给定的一组点,公式的输出应该总是相同的。

友好的玉米公式背后的逻辑

虽然一开始友好的玉米配方可能有点铺天盖地,但背后的逻辑并不难。例如,给定一组数据点,我们进行一些计算。如果数据点描述一个正斜率,我们得到一个正值;如果是负斜率,我们得到一个负值。为了做到这一点,我们可以把点集分成四个区域(象限),用所有X值的平均值(X=X)和所有Y值的平均值(Y=)来划分象限。

图3:带有象限的散点图

当点与点之间存在正相关时(点集在上升),大部分点会在象限一和象限三。在负相关的情况下,大多数点将在第二和第四象限。知道

了这一点,我们可以给第一象限或第三象限的每个点分配一个正值(+1),给第二象限或第四象限的每个点分配一个负值(-1)。然后,所有这些正负值的总和将在正相关时给我们一个正的结果,在负相关时给我们一个负的结果。

尽管这种方法可能会给我们提供关于斜率符号的信息,但它并没有提供关于相关性本身的任何信息。例如,图4.a中所有分配值之和与图4.b相同(都是+6)。然而,这两张图之间的相关性却有很大差别。

图4:弱相关和强相关

如果研究图4.a和图4.b之间的差异,你可能会意识到,虽然点的分布非常相似,但每个点到轴的距离不同。如果很多点都(只)靠近其中一个轴,那么相关性就会很弱。因此,在我们的方法中,我们要给那些离两个轴都比较远的点一个较高的分数,而给那些接近其中一个轴的点一个较低的分数。

用x坐标减去所有x坐标的平均值(x_i-x̄)来计算一个点到x轴的距离,同理可计算到y轴的距离。由于距离不可能是负数,我们通常会取这个差值的绝对值。但是,与x轴和y轴的 "距离 "的符号可以告诉我们,一个点是位于哪个象限。

例如,当一个点位于第一象限时,(x_i-x̄)和(y_i-ȳ)都是正数。如果一个点位于第二象限,(x_i-x̄)将是负的,(y_i-ȳ)是正的。位于第三象限的点都是负的。

图5:现象分布规律

当取每一个点到坐标轴的x和y的距离的乘积时,会得到一些非常重要的“东西”。

当一个点位于奇数象限时,这个乘积是正的(两个项的符号相同);当一个点位于偶数象限时,这个乘积是负的(两个项的符号不同)。如果把所有这些正负值相加,如果大多数点位于偶数象限,那么结果将是负的,如果大多数点位于奇数象限,则是正的。

由于在正相关的情况下,大多数点位于第一和第三象限,在负相关的情况下,在第二和第四象限,我们也可以用这种方法来计算数据点之间关系的符号。但我们的目标不仅仅是计算符号,而是描述相关性的强度。

如果很多点都接近其中一个轴,那么相关性将非常弱。因此,当一个点靠近其中一个轴时,公式的输出应该非常小,而如果一个点离两个轴都比较远,则输出会更大。让我们看看新公式是否符合这一要求。

当一个点靠近其中一个轴时,(x_i-x̄)或(y_i-ȳ)非常小。因此,这个乘积的结果也会比较小。但是,当一个点离两个轴更远时,(x_i-x̄)和(y_i-ȳ)都会很大。相应地,乘积也会很大。

我们可以计算图6.a和图6.b的相关系数。

图6

对于图6.a,我们发现如下:

符号解释:

⇔:当且仅当∧:和

对于图6.b,我们发现这样的情况。

新公式似乎很有效。在这两种情况下,系数的符号都是正的,确实是这样的(变量之间的关系在这两种情况下都是正相关的),而且当两点距离较近时,输出值较大(85.11>82.875)。

假设:原来图6.a和图6.b中用米作为轴上的单位。现在把这个单位改为毫米,相关系数会突然大很多。这是因为点的X坐标现在会大一千倍。但是,这不应该发生,因为这些点之间的相关性实际上并没有改变。

这就需要标准差了。因为标准差表示的是点有多么分散。把(x_i-x̄)与所有x坐标的标准差s_x相除,就得到了该点的所谓z值。这个值表示的是点离平均数x̄有多少标准差。例如,如果平均数是x̄=5,标准差sₓ=3,而点的x坐标x_i=11,z就等于2。

因为标准差的符号总是正的,z的符号只取决于x_i-x̄的符号。这意味着我们也可以使用x_i和y_的z值的乘积来计算变量之间关系的符号。

现在,真正的问题是:Z是否与轴的单位无关?Z并不表示一个点离中心有多远,而是表示它离中心有多少个标准差。

如果把点的坐标乘以一千,标准差也会大一千倍。比如说:

因为标准差与坐标轴具有相同的 "单位",一个点离中心的标准差的数始终保持不变。因此,Z与坐标轴的单位无关。

因此,使用z-score使公式与使用的单位无关。新公式现在看起来像这样:

使用这个公式,图6.a的相关系数等于10.413,图6.b的相关系数为13.93。

这个公式仍有一个问题。该公式的输出取决于数据点的数量。例如,假设在图6.a中增加了一个x坐标为13、y坐标为8的点,这个点会削弱相关性,因为它根本不在一条可能的直线附近。但是,用目前的公式,我们的相关系数甚至会略有增加。

为了解决这个问题,我们可以从求和中取所有项的平均值。由于我们已经在计算所有的项,只需要再除以点的数量,即n。确切地说,是n-1,这方面的原因超出了本文的讨论范围,只需知道在这种情况下,用n-1除所有项的平均值即可。最终公式便是友好的玉米公式了:

现在,对于图6.a,r = 0.69;对于图6.b,r = 0.93。

最小二乘法

在本文的开头,我向大家介绍了吉诺。吉诺想从散点图中计算出最适合给定数据点的直线的函数。正如我前面提到的,这个函数的计算被称为线性回归。

这种回归背后的方法被称为最小二乘法。

看一下下面的图:

图7:线性回归

在这个图上,我们称每个点的y坐标为y_i,直线上与y_i对应的纵坐标为ŷ_i。y_i称为y的观测值,ŷ_i称为y的预测值。

当画线时,我们希望从每一个点到线的y距离越小越好。这个距离等于观察值和预测值之间的差。

这个方程的问题是,当ŷ_i大于y_i时,d是负的。而我们只想对正值进行处理。为了解决这个问题,我们可以简单地将差值平方。

这就是 "最小二乘法 "这个名字的由来。

图8:最小二乘法。

回归线现在是所有d_i之和最小的那条直线。

这条线的函数如下:

这可以通过数学方法或计算机模拟来证明。

吉诺回归(端庄的野狼’s regression)

现在我们知道如何计算线性回归了。让我们试着计算一下1888年比萨斜塔的预期倾斜度。下面是吉诺获取的数据:

对于相关系数,计算得出r = 0.995,这是一个非常高的系数。线性回归肯定是有效的。对于函数,我们计算如下:

为了确保没有犯任何错误,可以在我们的散点图上画出这条线。

看起来很不错吧?

现在可以用这条线来预测未来的倾斜度。

对于1988年,我们预测的倾斜度为767.8。

最后

这篇文章的目的不是让你记住很多公式,也不是让你能够徒手计算出线性回归的结果。我主要是想展示某个公式背后的思考过程。线性回归几乎总是用计算器或电脑来完成。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。