在上面讲的回归分析中有一个重要的步骤就是建立回归方程,既然是回归方程,那么必然会有截距项b和回归系数a(指一元线性回归:Y=aX + b)决定,换句话来说,只要我们把a、b求出来,这个回归方程就可以写得出来。那么如何来求a和b?用什么方法来求?所用的方法需要达到什么样的条件才使建立的回归方程更好的描述这两个变量的关系?
所有的方法就是最小二乘法,先来看定义:最小二乘法(又称最小平方法)是一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。
如下图所示,点代表真实值,虚线代表所建立的回归方程,真实值与虚线之间的红线代表误差(残差),即误差=真实值-误差值。
那么根据最小二乘法的要求:最小化误差的平方。我们可以看作是以误差为边长的正方形并求这些正方形的面积的和就是最小化误差的平方,如下图所示。
所有图形的面积之和即是:(Y1真实值-Y1预测值)^2+ (Y2真实值-Y2预测值)^2+ …… +(Yn真实值-Yn预测值)^2的和最小。
我们用数学式子来表达就是:
把上式的z函数拆开:
然后我们将:
带入上式得如下的简洁式子:
接下来是对该简洁的式子进行分别对a和b求偏导,且令偏导等于0如下所示:
最后将上式两边除以2n整理后,可得求a,b的式子:
这就是用最小二乘法求回归方程的回归系数b和截距项a的推导过程,但是做为统计学专业的博主来说,觉得这只是计算回归方程的一种方法,最重要的还是分析得了回归方程后的步骤,前面我们也说了,得到这样一条回归方程,它的拟合程度如何?是不是还有更好的方法去求该回归模型?
那用什么统计量去判定拟合程度的好坏?我们一般使用R^2,
先给结论:R^2=SSR/SST, R^2的取值在0,1之间,越接近1说明拟合程度越好。(
SSR代表回归平方和:
SST代表偏差平方和:
)
还有一个使用SSE来表式R^2:
R^2=1-SSE/SST,
其是由:SST(总偏差)=SSR+SSE与R^2=SSR/SSTS换算而来。
如果所有的真实值点都在回归线上,说明SSE为0,则R^2等于1,
意味着Y的变化100%由X的变化引起,没有其他因素会影响Y,回归线能够完全解释Y的变化。如果R^2很低,说明X和Y之间可能不存在线性关系
变量的剔除
如果在多元中,即由多个自变量式,有些变量对因变量的解释度很低,我们可以把该类的变量进行剔除,使得回归模型简洁。所以这步就需要进行变量的显著性检验。对变量的显著性检验的思想:用到了统计学中必学的数理统计课程,涉及到太深的理论知识,这里不讲。我们记下结论就好:
T检验
T检验用于对某(单个)自变量Xi对于Y的线性显著性,如果该Xi不显著,意味着可以从模型中剔除这个变量。
F检验
F检验用于对所有的自变量X从整体上看对于Y的线性显著性。
T检验看的是统计结果中的P-value值,F检验看的是统计结果中的Significant F值,这两个值一般要与显著性水平比较,小于显著性水平说明显著,当然越小越显著(显著性水平是人为设定的,一般常用的有两个显著性水平分别式0.05和0.01)。