归一化处理的意义,归一化怎么算

在向机器学习模型的数据中，对数据进行归一化的处理。

为什么要进行归一化处理？

举一个例子

为了预测汽油的例子，两种汽油93#、95#假设自变量为加油的容量，变量为油价。

得到的公式如下。

其中，x1表示油的容量，1表示x1变量之前的系数。

其中，x2表示油的容量，2表示x2变量之前的系数。

首先，制作两张图表示数据是否均匀化的最优解搜索过程。

未归一化：

归一化后：

上述两幅图是损失函数的等高线。

我们在寻找最佳解的过程中，也就是损失函数值最小的1，2。

比较发现的影响

J(1,2)=(1001+5002-yk)^2

图像的等高线会变成椭圆的形状。找到最佳解的过程如下图所示。

数据规范化后，损失函数的公式可以表示为：

J(1,2)=(0.111+0.152-yk)^2

其中，如果变量前面的系数大致相同，则图像的等高线为圆形，最优解的搜索过程如下图所示。

由上可见，数据归一化后，最优解的搜索过程明显变缓，更容易准确收敛到最优解。用梯度下降法求解优化问题时，归一化/标准化后可以加快梯度下降的求解速度，即提高模型的收敛速度。如第1张所示，正规化/未正规化时形成的等高线偏向于椭圆，反复时很可能采取“之”的字型根(垂直长轴)，需要反复多次才能收敛。如第2张图那样对2个特征进行正规化处理，则对应的等高线变圆，在求出斜率下降时会迅速收敛。

所以，数据需要归一化。

归一化/归一本质上是线性变换，线性变换有许多良好的性质。根据这些性质，即使变更数据也不会“失效”，反而能够提高数据的表现。这些性质是正规化/标准化的前提。例如，线性变换具有不改变原始数据数值排序的重要性质。