在机器学习中,经常需要对数据进行归一化。 那么,为什么需要正规化处理,本文从寻找最佳解的角度进行分析。
范例
作为预测房价的例子,自变量为面积,房间数为2个,变量为房价。
得到的公式是:
其中
表示房间的数量,
代表变量
前面的系数。
其中
表示面积,
代表变量
前面的系数。
首先用两张图表表示数据是否均匀化的最优解搜索过程。
规范化的:
之后标准化:
为什么出现了上述两幅图,分别表达了什么意思呢?
我们在寻找最佳解的过程中,也就是损失函数值最小的东西。
上述两幅图表示损失函数的等高线。
在数据未归一化的情况下,面积数的范围为0~1000,房间数的范围通常为0~10,不难看出面积数的取值范围远大于房间数。
影响
这种影响是因为在绘制损失函数时数据没有归一化
图形的等高线呈相似的椭圆形状,寻找最佳解的过程如下图所示。
一旦数据被归一化,损失函数的公式可表示为:
在此,如果变量前面的系数大致相同,则图像的等高线为圆形,最优解的搜索过程如下图所示。
综上可知,数据归一化后,最优解的搜索过程明显变缓,容易准确收敛于最优解。 这也是需要将数据规范化的重要原因之一。
本文摘自医学AI学习者的文章