首页 > 编程知识 正文

回归方程怎么建立,一元线性回归方程表达式

时间:2023-05-06 04:00:52 阅读:176283 作者:3029

来自云海唯c的专栏

地址: http://blog.csdn.net/yunhaic/article/details/4317613 # comments

线性回归分析是处理两个变量之间关系的最简单模型,对象是两个变量之间的线性相关关系。 通过对该模型的讨论,我们不仅可以了解一元线性回归的相关知识,还可以了解回归分析方法的基本思想、方法和应用。

一.问题的提出

例2-1-1为了研究氮含量对铁合金溶液初始奥氏体析出温度的影响,测定了不同氮含量时铁合金溶液的初始奥氏体析出温度,得到了表2-1-1所示的5组数据。

表2-1-1氮含量和灰铸铁初生奥氏体析出温度的测定数据

以氮含量为横轴,以初生奥氏体析出温度为纵轴,将这些数据绘制在平面直角坐标上,得到图2-1-1,该图称为散点图。

从图2-1-1中可以看出,数据点几乎在一条直线附近。 这表明变量x和y之间的关系可基本上看作线性关系,即它们之间的相互关系可以用线性关系来描述。 但是,由于并非所有数据点都完全在一条直线上,所以x和y的关系并不准确,无法根据x值唯一确定y值。 其他因素如其他微量元素的含量和测试误差等都会影响y的测试结果。 调查x和y的关系时,可以进行线性拟合

(2-1-1) )

将式(2-1-1)称为回归方程,a和b是保留常数,称为回归系数。 理论上,(2-1-1)式有无限解,回归分析的任务是求出其最佳线性拟合。

二.最小二乘法原理

如果用回归方程计算的I值(I=1,2, n )称为回归值,则实测值yi和回归值I之间存在偏差,该偏差称为残差,表示为EI (I=1,2,3,n )。 因此,可以用残差平方和测量值与回归直线的接近或偏差的程度。 残差平方和被定义为:

(2-1-2) )。

最小二乘法是指为了使q(a,b )最小而选择a和b。 也就是说,最小二乘法得到的回归直线是所有直线中与测量值的残差平方和q最小的直线。 由式(2-1-2)可知,q是关于a、b二次函数,所以其最小值总是存在. 以下讨论的A和B的求法。

三.正规方程

由通过微分求出极值方法可知,q(a,b )取最小值是因为

(2-1-3) )。

根据式(2-1-2),考虑到上述条件时

(2-1-4) )。

(2-1-4)式称为正规方程式。 可以解这个方程式

(2-1-5) )。

其中

(2-1-6)。

(2-1-7) )。

式中,Lxy称为xy的协方差之和,Lxx称为x的平方方差之和。

如果改写式(2-1-1)

(2-1-8)。

或者

(2-1-9)。

由此可知,回归直线通过点,即通过由所有实验测量值的平均值构成的点。 从力学的角度来看,是n个散点的重心位置。

在此,建立关于例1的回归关系式。 将表2-1-1结果由(2-1-5)式代入(2-1-7)式时

a=1231.65

b=-2236.63

因此,例1中灰铸铁初生奥氏体析出温度(y )和氮含量) x )的回归关系式为

y=1231.65-2236.63x

四.一元线性回归的统计学原理

如果x和y都是相关联的随机变量,在x确定的条件下,相应的y值并不确定,从而形成分布。 如果x取确定的值,y的数学期望值也就确定了。 因此,y的数学期望值是x的函数,即

e(y|x=x )=f ) x ) ) (2-1-10 ) ) ) ) ) )。

这里将方程式f(x )称为y对x的回归方程式。 回归方程为线性时

e(y|x=x )=x(2-1-11 ) ) ) ) ) ) ) )。

或者

y=x(2-1-12 ) )。

其中

   ε―随机误差

 从样本中我们只能得到关于特征数的估计,并不能精确地求出特征数。因此只能用f(x)的估计式   来取代(2-1-11)式,用参数a和b分别作为α和β的估计量。那么,这两个估计量是否能够满足要求呢?

 

 1. 无偏性

 把(x,y)的n组观测值作为一个样本,由样本只能得到总体参数α和β的估计值。可以证明,当满足下列条件:

 (1)(xi,yi)是n个相互独立的观测值

 (2)εi是服从 分布的随机变量

 则由最小二乘法得到的a与b分别是总体参数α和β的无偏估计,即

E(a)= α

E(b)=β

    由此可推知

E( )=E(y)

    即y是回归值 在某点的数学期望值。

 2. a和b的方差

 可以证明,当n组观测值(xi,yi)相互独立,并且D(yi)=σ2,时,a和b的方差为

                               (2-1-13)

                  (2-1-14)

以上两式表明,a和b的方差均与xi的变动有关,xi分布越宽,则a和b的方差越小。另外a的方差还与观测点的数量有关,数据越多,a的方差越小。因此,为提高估计量的准确性,xi的分布应尽量宽,观测点数量应尽量多。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。