归一化处理的目的和意义,归一化处理的意义

在机器学习中，经常需要对数据进行归一化。那么，为什么需要正规化处理，本文从寻找最佳解的角度进行分析。

范例

作为预测房价的例子，自变量为面积，房间数为2个，变量为房价。

得到的公式是：

其中

表示房间的数量，

代表变量

前面的系数。

其中

表示面积，

代表变量

前面的系数。

首先用两张图表表示数据是否均匀化的最优解搜索过程。

规范化的：

之后标准化：

为什么出现了上述两幅图，分别表达了什么意思呢？

我们在寻找最佳解的过程中，也就是损失函数值最小的东西。

上述两幅图表示损失函数的等高线。

在数据未归一化的情况下，面积数的范围为0~1000，房间数的范围通常为0~10，不难看出面积数的取值范围远大于房间数。

影响

这种影响是因为在绘制损失函数时数据没有归一化

图形的等高线呈相似的椭圆形状，寻找最佳解的过程如下图所示。

一旦数据被归一化，损失函数的公式可表示为：

在此，如果变量前面的系数大致相同，则图像的等高线为圆形，最优解的搜索过程如下图所示。

综上可知，数据归一化后，最优解的搜索过程明显变缓，容易准确收敛于最优解。这也是需要将数据规范化的重要原因之一。

本文摘自医学AI学习者的文章