多元线性回归和简单线性回归差异,一元线性回归随机误差项

前面几节都是监督学习方面的算法，监督学习是指有目标变量或预测目标的机器学习方法，回归与分类的不同，就在于其目标变量是连续数值型，而分类的目标变量是标称型数据，其实前面的Logistic回归就是回归的一种，他们的处理方法大同小异，在这里系统的讲解一下回归的来龙去脉，理解影响回归的因素，知道如何处理这方面的问题，系统的梳理一下。本节将从最简单的一元线性回归开始，然后是多元，逐次深入，下面就开始介绍线性回归：

回归：

回归分析就是利用样本（已知数据），产生拟合方程，从而（对未知数据）进行预测

回归算法(模型):用平均值，期望，方差，标准差进行预测估计

回归分析中，又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的，分为线性回归分析和非线性回归分析。

通过指数来进行判断即可，线性就是每个变量的指数都是1(一次方)，为直线形态，而非线性就是至少有一个变量的指数不是1(二次方或多次方)，为曲线形态。

一元线性回归：

若X与Y之间存在着较强的相关关系，则我们有Y≈α+βX

若α与β的值已知，则给出相应的X值，我们可以根据Y≈α+βX得到相应的Y的预测值

那么现在我们知道什么是回归了，关键是如何找到合适的参数（系数）作为回归的方程使用？

下面给出更一般的一元线性回归的表达式：

其中为截距项，为斜率，为误差项

如何确定这几个参数？

我们知道，确定参数一定会有一个衡量标准的，这个衡量标准一般使用误差平方和，简单来说就是使用平方误差和衡量预测值h和真实值的差距，但是为什么是平方误差呢？大家知道他的来历吗？在这里解释一下:

如上图，中间的线就是拟合的线，那么我希望找到一个最佳的拟合线，如何衡量他呢？上面提到可以使用误差平方和，那么基于什么误差呢？第一个想到的就是基于数据点到回归线的距离之和，求其所有距离并求和，得到一个距离误差，如上图其中一个数据点的距离为d1，求出图中所在所有的距离相加求极小值即可，但是问题是求距离还是挺复杂的，有开方项，数学中不好计算，因此人们又提出直接使用函数值的差也是可以的，因为当函数值的差最小时，距离也是最小的，这样可行，但是函数值相减有正有负因此需要加上绝对值，如上图的|y-^y|,因为有绝对值不好计算，因此直接平方就不用考虑正负的事了，所以最终的误差距离就使用误差平方和进行衡量了即：

真实值y，预测值为，则平方误差为：

寻找合适的参数使的误差平方和最小

我们的优化函数就找到了，下面只需求出使误差平方和极值最小的参数（系数）即

从上式可以看出Rss是的函数，使用最小二乘法（无偏估计）或者求偏导都可以求出参数，下面使用求偏导，使其等于0求出：

其中是数据，是均值，把数据带进去就可以确定系数了，最简单的一元线性回归就求出来了，下面我们把其扩充到多元线性回归中：

多元线性回归：

多元回归我们会使用矩阵来表示：

假设训练数据为：

求和可以写成矩阵的形式：

多元和一元差不多，不同的是一元回归是线，而多元回归就是超平面了，例如二元回归就是平面，表达式就是形如：

图形为：

如果是三元以上的回归就是超平面了。

他的误差损失函数和一元的定义很类似：

这形式大家很熟悉吧，其实就是一元线性函数的误差公式嘛，只是写成矩阵的形式，解释一下上面的参数，其中是求均值的。

好，到这里大家就了解了上面的式子的来龙去脉，现在的问题是，这个式子可以和上面的一元线性函数一样直接求解吗？这里的回答是不一定的，需要看情况，原因是什么呢？

讲原因之前先带大家回顾一些基础知识，大家都知道解方程吧，我们知道，如果要解两个未知数则需要两个方程，解三个未知数则需要3个方程才能求解出来，如果是n个未知数则需要解n个方程才能解出来，因此和我们上面的情况是一样的，如果未知数（就是系数wi）大于数据个数，则就无法建立足够多的方程求解，如果数据大于未知数则可以按照一元的直接求解，在矩阵里我们成可以解出方程的为矩阵满秩，大家不懂矩阵的话就按照我上面的来理解也是可以的，下面我们就分两种情况进行说明：

可求解（矩阵满秩）：

上面求导利用到了矩阵的求导法则，不懂的建议看看矩阵论相关章节，上面还有一处错误就是对w求偏导时少乘了一个2，应该是这样

求偏导hdsdxj等于0，把数据带进去就可以解出系数w了，下面我们详细的说明一下另外一种情况即无法求解的情况：

其实就是基于最大释然估计的梯度进行求解局部最优值的和我的这篇文章很类似，不会的请看看那篇文章，如果那个逻辑回归理解了，这里就不难，反之你是看不懂的，所以有问题别拖，及时解决他，这样才能快速进步，下面直接给出最后的公式了：

我们知道此时的就是w了，下面我们从求解公式来看看：

假设有数据集D：

对目标函数求导，更新就是按照上面的来更新的。

这样更新w是否合理呢？有什么依据呢？下面我们看看最大释然估计是否合理：

我们的模型和之前是一样的：

不过，现在让我们假定随机误差符合均值为零的正态分布：

改写模型为：

由于样本是独立抽取的（不相关误差是kqdxbw定理的条件之一），数据的似然看起来会是密度函数p(yi)的积。让我们考虑对数似然，对数似然允许我们用和替换积：

我们想要找到最大似然假设，即，我们需要最大化表达式p(y ∣ X, w) 以得到wML。这和最大化其对数是一回事。注意，当我们针对某个参数最大化函数时，我们可以丢弃所有不依赖这一参数的成员：

所以，我们看到了，最大化数据的似然和最小化均方误差是一回事（给定以上的假定）。实际上，这是因为误差是正态分布的。

因此完全可以使用最大释然估计进行求解，下面我们再从概率统计方面看看线性回归的误差性质：

偏置-方差分解：

我们详细看看回归误差的性质，这个性质不仅仅在这个算法中有效，在其他的机器学习算法中也是适用的，下面需要一点概率论的知识：

目标变量的真值是确定性函数f(x)和随机误差ϵ之和：

误差符合均值为零、方差一致的正态分布：

目标变量的真值亦为正态分布：

我们试图使用一个协变量线性函数逼近一个未知的确定性函数f(x)，这一协变量线性函数，是函数空间中估计函数f的一点（具体而言，我们限定函数空间的线性函数家族），即具均值和方差的随机变量。

因此点x的误差可分解为：

上面的公式这个大家都懂吧，求均值的，然后拆开求均值，最后一行为了化简方便，把函数的变量都省去了，这只是方便起见。

求方差的公式大家还记得吗？下面我把方程的公式给出，不知道为什么这样的请查看概率的方差章节，

我们按照方差的公式可有求出:

前两项：

最后一项：有一个前提就是误差和目标变量相互独立

上面的计算都是概率论方面的简单计算，如果感觉到吃力，建议多看看概率论方面的书籍。

最后我们可以合并一下：

最后我们得到了预测误差的三部分组成：

平方偏置、方差、不可消除误差

不可消除误差我们无法处理，但是前两部分我们可以处理，理想情况下我们希望同时把前两项都消去，但是实际我们很难同时消去这两项，常常需要在两者中找平衡。

由上图我们可以发现bias是数据偏离中心的程度，而var是数据的离散程度。

一般而言，当模型的计算增加了（例如，自由参数的数量增加了），估计的方差（分散程度）也会增加，但偏置会下降。由于模型完全记下了训练集而没能概括训练集，小小的变动将导致未预期的结果（过拟合）。另一方面，如果模型太弱，它将不能够学习模式，导致学习偏离正解较远的不同答案，如下图：

kqdxbw定理断言，在线性模型参数估计问题中，OLS估计是最佳的线性无偏估计。这意味着，如果存在任何无偏线性模型g，我们可以确信：

线性回归正则化：

在一些情形下，我们可能会为了稳定性（降低模型的方差）特意增加模型的偏置。kqdxbw定理的条件之一就是矩阵X是满秩的。否则，OLS解不存在，因为逆矩阵不存在。换句话说，矩阵将是奇异矩阵或退化矩阵。这被称为病态问题。这类问题必须加以矫正，也就是说，矩阵需要变为非退化矩阵或非奇异矩阵（这正是这一过程叫做正则化的原因）。我们常常能在这类数据中观察到所谓的多重共线性：当两个或更多特征高度相关，也就是矩阵X的列之间“几乎”存在线性依赖。例如，在基于参数预测房价这一问题中，属性“含阳台面积”和“不含阳台面积”会有一个“几乎是”线性的关系。形式化地说，包含这类数据的矩阵是可逆的，但由于多重共线性，一些本征值会接近零。在的逆矩阵中，会出现一些极端巨大的本征值，因为逆矩阵的本征值为1/(λi)。这一本征值的波动会导致模型参数估计的不稳定，即，在训练数据中加入一组新的观测会导致完全不同的解。有一种正则化的方法称为hhdsw正则化，大致上是在均方误差中加上一个新成员：

hhdsw矩阵常常表达为单位矩阵乘上一个系数：

在这一情形下，最小化均方误差问题变为一个L2正则限定问题。如果我们对新的损失函数求导，设所得函数为零，据w重整等式，我们便得到了这一问题的解：

这类回归被称为岭回归。岭为对角矩阵，我们在XTX矩阵上加上这一对角矩阵，以确保我们能得到一个常规矩阵。

到这里我们基本上讲完了一元和多元的线性回归，也稍微提了一下岭回归，下节会详细介绍岭回归，本篇的重点是对线性回归的误差函数的分析，已经最大释然估计和误差平方和的关系。

本篇文章主要参考：

Mail.Ru数据科学家Yury Kashnitsky深入讲解线性分类和线性回归的理论与实践

CSS中div滚动条样式如何设置