数据归一化处理的目的,不同量纲数据归一化

数据标准化(规范化)处理是数据挖掘的基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，解决数据指标之间的可比性。原始数据经数据标准化处理后，各项指标在同一位，适合综合比较评价。有两种常见的规范化方法：

一、最小最大标准化(最小最大标准化)。

也称为分布式标准化，是对原始数据的线性转换，使结果值映射到[0 - 1]之间转换函数如下：

这里，max是样本数据的最大值，min是样本数据的最小值。这个方法有缺点。如果有新数据进入，可能会导致最大和最小的变化，需要重新定义。

二. Z-score标准化方法

该方法给出原始数据的平均值(mean )和标准偏差)进行数据的标准化。处理的数据符合标准正态分布。也就是说，平均值为0，标准偏差为1，转换函数如下。

这里是所有样本数据的平均值，也是所有样本数据的标准偏差。

Z-score标准化的sklearn方法： http://blog.csdn.net/u 011630575/article/details/79406612

“数据标准化”(normalization )和“标准化数据标准化”(normalization )是将数据缩放到适合较小的特定区间。常用于一些比较和评价指标处理，去除数据的单位限制，将其转换为无量纲纯数值，使不同单位或订单的指标可以比较和加权。其中最典型的是数据归一化处理，即将数据统一映射到[ 0，1 ]区间。

目前，数据标准化方法有多种，可以归纳为直线型方法(极值法、标准差法等)、折线型方法)、曲线型方法)、半正态分布等)。不同的标准化方法对系统的评价结果有不同的影响，但不幸的是，数据标准化方法的选择没有共同的规律。

的规范化目标1将数变为(0，1 )之间的小数

主要是为了便于数据处理而提出的，将数据映射到0~1的范围内进行处理应该更加方便快捷，并纳入数字信号处理的范畴。

将二维表达式变为无量纲表达式

规范化是一种简化计算的方式，即有无量纲公式，经变换后成为无量纲公式，成为标量。例如，复阻抗可以规范化书写。 z=rjl=r(1jl/r )。复部分是纯数，没有维度。

另外，在微波中，有电路分析、信号系统、电磁波传输等多个运算能够这样处理，在保证运算便利性的同时，能够突出物理量的本质含义。

规范化有两个优点1 .提高模型的收敛速度

如下图所示，x1的值为0-2000，而x2的值为1-5。如果仅具有这两个特征，则将其优化，得到宽度窄的椭圆形，在坡度下降时，坡度的方向沿与等高线垂直的方向以锯齿方式前进，反复变慢，而右图的反复变快(图2 )

2 .提高模型精度

规范化的另一个优点是提高精度。这在涉及几种距离计算的算法时效果明显。例如，这将导致精度的损失，因为算法计算蓬勃的仙人掌距离，所以上图中的x-2可能的范围相对较小，而如果涉及距离计算，则其对结果的影响远远小于x-1。所以需要正规化，他可以使各特征对结果的贡献相同。

在多指标评价体系中，由于各评价指标的性质不同，通常具有不同的维度和订单。如果各指标之间的水平相差较大，直接用原始指标进行分析，将突出高数值指标在综合分析中的作用，相对削弱低数值指标的作用。因此，为了保证结果的可靠性，有必要对原始指标数据进行标准化。

在数据分析之前，通常需要对数据进行标准化(normalization )，并利用标准化数据进行数据分析。数据标准化是统计数据的指数化。数据标准化处理主要有数据同步化处理和无量纲化处理两个方面。数据同步化处理主要解决不同性质的数据问题，不同性质的指标直接相加不能准确反映不同作用力的综合结果。首先，必须考虑改变逆指标数据的性质，使所有指标对评价方案的作用力同步化，然后进行加法运算才能得到正确的结果。数据无量纲化处理主要解决数据的可比性。经过上述标准化处理，原始数据均转化为无量纲化指标的评价值，即各指标值均处于相同数量水平，可以进行综合评价分析。

经验表明，归一化通过使不同维度之间的特征在数值上具有一定的可比性，可以大大提高分类器的准确性。

3 .通过深度学习将数据规范化，可以防止模型的梯度爆炸。

需要数据规范化的机器学习算法需要规范化模型。

在某些模型中，在每个维度上不均匀拉伸后，最佳解可能与原始解不等效。例如，SVM (远离界面的esen变近，支持向量变多？请参阅。在这样的模型中，除了原本各维数据的分布范围比较近的情况以外，需要进行标准化以使模型参数不被分布范围大的数据或小的数据dominate。

有些模型在各个维度进行不均匀伸缩后，最优解与原来等价，例如logistic regression（因为θ的大小本来就自学习出不同的feature的重要性吧？）。对于这样的模型，是否标准化理论上不会改变最优解。但是，由于实际求解往往使用迭代算法，如果目标函数的形状太“扁”，迭代算法可能收敛得很慢甚至不收敛。所以对于具有伸缩不变性的模型，最好也进行数据标准化。

不需要归一化的模型：

ICA好像不需要归一化（因为独立成分如果归一化了就不独立了？）。

基于平方损失的最小二乘法OLS不需要归一化。