最小二乘法的详细证明过程,最小二乘法推导思路

转载来源： http://blog.csdn.net/mars John/article/details/54911788

在数据的统计分析中，数据之间，即变量x和y之间的相关性研究非常重要，通过在正交坐标系中绘制散点图，可以发现许多统计数据近似于直线，并且它们之间或正相关或负相关。这些数据是离散的，不是连续的，所以不能得到描述这种相关性的确定性函数方程，但在直角坐标系中数据分布接近直线，通过画直线可以得到近似描述这种关系的直线方程。当然，从前面的说明可以看出，所有的数据都分布在直线附近，所以这样的直线可以画很多线。我们希望找到其中之一，以最好地反映变量之间的关系。也就是说，找到与已知数据点“最近”的直线，并使该直线方程如下：

其中y的实际值y (这里的实际值是统计数据的实际值，称为观察值)。 x取值(I=1、2、3……n )时，y的观察值为近似值)或对应的纵轴为) )。

在此，将式称为y对x的回归直线方程式，将b称为回归系数。要确定回归直线方程，只需确定a和回归系数b即可。

x、y观察值的组如下

I=1，2，3……n

其回归直线方程如下

当x取值(I=1、2、3……n )时，y的观察值为，而差值表示实际观察值与回归直线上相应点的纵轴之间的偏差程度。参照下图：

实际上，希望这n个方差构成的整体方差越小越好。只有这样才能使直线最接近已知点。也就是说，我们回归直线方程的过程，其实是求出方差最小值的过程。

一个自然的想法是，将各个方差加起来作为总方差。但是，由于方差有正负，直接相加会相互抵消，无法反映这些数据的接近度。也就是说，这个总方差不能用n个方差之和表示。请参照下图。

一般使用方差的平方和。也就是说：

作为方差的合计，设为最小。这样，回归直线在所有直线中q取最小值。这种“最小化方差平方和”的方法也称为最小二乘法，因为平方也被称为平方。

用最小二乘法求回归直线方程的a、b的公式如下。

这里，是和的平均值，在a、b上加上“)”的是根据观察值用最小二乘法求出的推定值，求出a、b后，还建立回归直线方程式。

当然，我们肯定不能满足于直接得到公式。我们只有理解这个公式是怎么来的才能记住它，并使用它。因此，给出上面两个公式的推导过程更为重要。在给出上述公式的推导过程之前，给出推导过程中使用的两个重要变形公式的推导过程。首先是第一个公式：

然后是第二个公式：

基本的变形公式准备好了。可以开始最小二乘法求出回归直线方程公式的导出。

表达式的变形部分现在结束，从最终表达式中可以看到以下两项

与A、b无关，属于常数项。我们只是

可得到最小的q值，因此如下所示。

至此，公式推导完成。

最小二乘法求回归直线方程可用于所有数据分布近似直线的数据统计、分析问题，它用程序实现非常简便，是基础统计分析算法，必须熟练应用。