首页 > 编程知识 正文

非线性最小二乘法拟合(统计学线性回归方程公式)

时间:2023-05-04 05:41:53 阅读:104383 作者:1342

单变量数据和二变量数据

到目前为止,我们使用的变量都是单变量数据。所谓单变量数据是指单个变量出现的频率或概率。单变量描述的对象只有一个,不能描述多组数据之间的关系。这时,就需要使用二元数据。

双变量数据给出两个变量值。比如要观察晴天小时对演唱会观众人数的影响,需要给出两个变量:晴天小时和演唱会观众人数。

如果其中一个变量以某种方式被控制或用来解释另一个变量,那么这个变量被称为自变量或解释变量,而另一个变量被称为因变量或反应变量。我们想通过晴天的时间来预测听众的数量,所以晴天的时间是自变量,听众的数量是因变量。您可以使用散点图来可视化二元数据:

散点图的作用是反映数据的实际模式。从散点图中,我们可以看到演唱会数据的散点图呈现出——个数据呈直线分布的独特模式。我们称这种现象为相关性。也就是变量之间的数学关系。如果散点图上的点几乎是线性分布的,则相关性是线性的。线性相关分为正线性相关和负线性相关。

这里需要提醒的是,两个变量之间存在相关性并不一定意味着一个变量会影响另一个变量,也不意味着它们之间存在实际关系。

用最小二乘法求最佳拟合线

,最能逼近所有数据点的线称为最佳拟合线,需要最佳拟合线。首先,可以假设直线公式为y=a bx。最佳拟合线是表达式为y=a bx的线,它使Y的实际观测值和对应于每个x的Y的估计值之间的差异最小化。

误差平方和

我们假设数据集中的每个Y值用Yi表示,最佳拟合线得到的估计值用Y I表示,我们想根据最佳拟合线使Y的实际值和估计值的差值最小,也就是说,我们想使Yi和Y I的差值最小,为了使所有的距离不相互抵消, 我们求出它们差的平方和,即误差平方和(SSE),公式如下:

误差平方和公式

高中的时候,我们已经知道B代表直线的斜率。下面是计算B的直接公式,它使误差平方和最小化:

坡度计算公式

以上述晴天小时数和音乐收听人数的数据为例,根据误差平方和公式和斜率计算公式,我们可以得到:

b=5.32

参数A的公式如下:

的计算公式

因此,可以得到a=15.80。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。