首页 > 编程知识正文

线性回归相关系数(线性回归方程r)

时间：2023-05-04 16:57:35 阅读：1596 作者：1793

注意：文本中有很多公式，转换成图片后才能正常显示。请原谅我读书不好。

本文由[简体可用]原创，转载请联系我，谢谢！

目录

1.什么是回归？

2.单变量线性回归

3.损失函数

4.最小二乘估计

5.摘要

00-1010当我们学习一门新课程，接触到一个新的专业时，我们总是对这个领域的专有名词感到困惑，甚至在看完解释后，我们仍然无法理解它们的含义。在一起学习机器学习的过程中，我会尽量讲解‘人话’中的相关名词，减少学习的‘痛苦’。

比如今天要学的线性‘回归’，这个回归和我们平时说的‘回归祖国’的回归是两个意思完全不同的词，里面有‘后推’的意思。当我们学习的时候，我们必须抛弃我们现有的知识，这样我们才能对新知识有更高的接受度。

那么，这次回归到底意味着什么？其实回归算法是相对于分类算法而言的，它与我们要预测的目标变量Y的值类型有关。如果对客观变量Y进行分类，如预测用户性别(男、女)，预测月季花颜色(红、白、黄等................如果y是连续变量，比如预测用户的收入(4，000，20，000，100，000.)，预测员工的通勤距离(500米、1公里、20，000英里.)和预测肺癌的概率(1%、50%、99%.)，我们需要使用回归模型。

聪明的你肯定会发现，有时候分类问题也可以转化为回归问题，比如刚才引用的肺癌预测。我们可以先用回归模型预测肺癌的概率，然后给出一个阈值，比如50%。概率值低于50%的人被归类为无肺癌，超过50%的人被认为患有肺癌。

逻辑回归是预测这类分类问题最常用的方法，后面我们会讲到。

1. 什么是回归

线性回归可以说是一种用法非常简单、用途广泛、意义容易理解的算法，非常适合作为机器学习的入门算法。我们上中学的时候，都学过二元线性方程。我们用Y作为因变量，用X作为自变量，得到方程：

当我们只用一个X来预测Y时，就是线性回归，即我们在寻找一条直线来拟合数据。例如，我有一个由一组数据绘制的散点图。横坐标代表广告投资额，纵坐标代表销售额。线性回归就是找到一条直线，让这条直线尽可能地拟合图表中的数据点。

我们在这里得到的拟合方程是y=0.0512x 7.1884。这时，当我们获得新的广告投入量时，我们可以用这个方程来预测大致的销量。

2.一元线性回归

既然散点是用直线拟合的，为什么最后得到的直线y=0.0512x 7.1884而不是下图中y=0.0624x 5？这两条线似乎符合这些数据。毕竟数据并不是真的落在一条直线上，而是围绕直线分布的，所以我们需要找到一个标准来评价哪条直线最‘合适’。

让我们从残留物开始。说白了，残差就是实际值和预测值的差值(也可以理解为差距和距离)，用公式表示：

公式是：

25826d18e0884671a0?from=pc">

这个公式是残差平方和，也叫均方误差（MSE），还叫欧氏距离（用于计算点间的距离，记住这个名称，以后我们会经常提到），在机器学习中它是回归问题中最常用的损失函数。一个公式好多个名称，刚接触都会觉得晕，但慢慢熟悉之后就好了。

所以，现在我们知道了损失函数是衡量回归模型误差的函数，也就是我们要的"直线"的评价标准。这个函数的值越小，说明直线越能拟合我们的数据。

4.最小二乘估计

当给出两条确定的线，如y = 0.0512x + 7.1884，y = 0.0624x + 5时，我们知道怎么评价这两个中哪一个更好，即用损失函数评价。那么我们试试倒推一下？

------------------------我是头疼的分割线-----------------------------

以下是我们最头疼的数据公式推导，我尽量对每个公式作解释说明。

我们再来看一下残差平方和的公式：

这类函数在数学中叫做凸函数，意思就是处处连续可导且有最小值。

5.小结

线性回归的定义，是利用最小二乘函数对一个或多个自变量之间关系进行建模的方法。现在我们看这个定义，是不是觉得不难理解了呢？

以上举的例子是一维的例子（x只有一个），如果有两个特征，就是二元线性回归，要拟合的就是二维空间中的一个平面。如果有多个特征，那就是多元线性回归：

最后再提醒一点，做线性回归，不要忘了前提假设是y和x呈线性关系，如果两者不是线性关系，就要选用其他的模型啦。

阅读全文

版权声明：该文观点仅代表作者本人。处理文章：请发送邮件至三1五14八八95#扣扣.com 举报，一经查实，本站将立刻删除。

标签：

相关阅读