线性回归方程公式详解,高中线性回归方程

1 .预测和控制

预测

单值预测

区间预测

基于变量新值的区间预测

基于变量新值均值的区间估计

控制

2 .回归系数的解释

3 .回归APP回归问题

预测和控制

建立回归模型的目的是为了应用，回归模型最重要的应用是预测和控制

一.预测

1、单值预测

单值预测是使用单个值作为因变量的新值的预测值。例如，研究某地区小麦单产y与施肥量x的关系时，在n块单位面积土地上测定各施肥量xi，最后测定相应产量yi，建立回归方程。如果某农户对单位面积土地施肥x=x0，则该地预期小麦产量为

(1) ) ) )。

这是由于对变量新值的单值预测。由于预测目标是随机变量，因此该预测不是无偏的。根据公式，显示了预测值具有与目标值y0相同的平均值。

2、区间预测

关于预测问题，不仅想知道预测值，还想知道预测的精度，有必要进行区间预测。也就是给出小麦产量预测值的范围。与只给定单一的值相比，给定预测值的范围更可靠。问题是，针对给定的显著性等级，找出与ssdcjl对应的特定的x0的真值y0以1-的概率包含在区间(T1、T2 )中的区间) T1、T2 )，用公式表示

p(t1y0t2)=1. ((2) ) ) ) ) ) ) ) ) ) ) ) ) )。

对因子的区间预测分为因子的新值的区间预测和因子的新值的平均值的区间预测两部分。

)1)基于变量新值的区间预测(y0的置信区间) )。

首先计算的分布利用独立的关系设定统计量。

的分布

都是y1，y2，…，yn的线性组合

也是y1，y2，…，yn的线性组合

正规假设下~正规分布，其期望值为

To :计算

((3) )。

记住

(4) ) )。

对于新值x0的杠杆值，公式(3)缩短如下：

(5) ) )。

统计量

是以前独立观测到的随机变量y1，y2，…，yn的线性组合

新值y0独立于以前的观测值

独立于y0

((六) )。

此外，还可以看到统计量：

(7) ) )。

得到

(8) )。

y0的信赖等级为1-的信赖区间是

(9) ) )。

当样本容量n较大且较小时，h00接近零，y0置信水平为95%的置信区间

(十) )。

从公式(8)可以看出，当确定了显著性级别时，样本容量n越大，Lxx越大，XO越接近x的平均值，y0估计值的方差越小，置信区间长度越短，此时的预测精度越高。

因此，为了提高预测精度，样本量n越大越好，不能太集中。

预测时，x0不能偏离太大。那时置信区间的长度最短，那时的预测结果最好。

)2)基于变量新值平均值的区间估计

ify">　　如果该地区的一大片麦地单位面积施肥量同为x0，那么这一大片地小麦的平均单位产量如何？此时的问题是，有多个相等的x0，则预测的平均y0是多少？即估计平均值E(y0)。

　　E(y0) 的点估计仍为，但是其区间估计却与因变量单个新值y0的置信区间式（9）不同。

∵ E(y0) = β0 + β1x0 是常数

∴ 由式（3）可知

（11）

∴ 置信水平为 1-α 的置信区间为

（12）

　　二、控制问题

　　控制问题相当于预测的反问题。该问题为控制 x 使 y 在一定的范围内取值。

　　即要求 T1 < y < T2, 如何控制自变量 x ？

　　可以把问题描述为：控制 x 以 1-α 的概率保证把目标值 y 控制在 T1 < y < T2 中

p(T1 < y < T2) = 1 - α， 0 < α < 1

　　若 α = 0.05，由式（10）有

（13）

将代入上式（13）有：

　　时：

（14）

　　时：

（15）

　　应用要求：因变量 y 与自变量 x 之间有因果关系。

回归系数的解释问题

　　对于回归方程：通常将解释为：当自变量 x 增加或减少一个单位时，平均地说，y 增加或减少个单位。

　　对于该解释需要加上几个前提条件才能正确：

　　◆ x 变化区间在模型内

　　◆ x 以外的因素对 y 的影响要相当

　　◆ x 与 y 一起观察所得，不由人事先控制，即x 处于合理的范围内，且必须“自然而然的”产生，而不是认为制造（比如研究身高体重，通过认为减肥来控制变量）

回归应用的问题

回归模型作为内插方程，在回归变量范围内用于拟合模型

　　内插预测：预测时，x 取值在建模时样本数据 x 的取值范围之内（效果好，误差小）

　　外推预测：预测时，x 取值超出了样本数据 x 的取值范围之内（效果可能不好）

　　因为建的回归方程是直线方程，而理论上回归方程一般并非是严格的直线。

　　2. 对 x值的处理在最mldmj乘拟合中扮演重要角色

　　所有点在决定回归直线高度中有着相等的权重，但斜率受 x 偏远点的影响更强烈，需要提出异常点作另外分析。

　　3. 离群点是与数据中的其他点有相当大区别的观测值，可以严重干扰最mldmj乘拟合，需要区分该点是由错误导致的坏值还是与探索过程相关的十分有用的证据。

　　4. 回归分析（处理相关性问题）：两个变量之间存在强烈的关系，并不意味着变量间存在任何因果关系（必然性问题）。

　　5. 某些应用中，预测 y 需要的回归变量 x 的值是未知的。

转载于:https://www.cnblogs.com/datamining-bio/p/9511520.html