首页 > 编程知识 正文

数据归一化处理的目的,不同量纲数据归一化

时间:2023-05-04 11:26:35 阅读:31468 作者:2537

数据标准化(规范化)处理是数据挖掘的基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,解决数据指标之间的可比性。 原始数据经数据标准化处理后,各项指标在同一位,适合综合比较评价。 有两种常见的规范化方法:

一、最小最大标准化(最小最大标准化)。

也称为分布式标准化,是对原始数据的线性转换,使结果值映射到[0 - 1]之间转换函数如下:

这里,max是样本数据的最大值,min是样本数据的最小值。 这个方法有缺点。 如果有新数据进入,可能会导致最大和最小的变化,需要重新定义。

二. Z-score标准化方法

该方法给出原始数据的平均值(mean )和标准偏差)进行数据的标准化。 处理的数据符合标准正态分布。 也就是说,平均值为0,标准偏差为1,转换函数如下。

这里是所有样本数据的平均值,也是所有样本数据的标准偏差。

Z-score标准化的sklearn方法: http://blog.csdn.net/u 011630575/article/details/79406612

“数据标准化”(normalization )和“标准化数据标准化”(normalization )是将数据缩放到适合较小的特定区间。 常用于一些比较和评价指标处理,去除数据的单位限制,将其转换为无量纲纯数值,使不同单位或订单的指标可以比较和加权。 其中最典型的是数据归一化处理,即将数据统一映射到[ 0,1 ]区间。

目前,数据标准化方法有多种,可以归纳为直线型方法(极值法、标准差法等)、折线型方法)、曲线型方法)、半正态分布等)。 不同的标准化方法对系统的评价结果有不同的影响,但不幸的是,数据标准化方法的选择没有共同的规律。

的规范化目标1将数变为(0,1 )之间的小数

主要是为了便于数据处理而提出的,将数据映射到0~1的范围内进行处理应该更加方便快捷,并纳入数字信号处理的范畴。

将二维表达式变为无量纲表达式

规范化是一种简化计算的方式,即有无量纲公式,经变换后成为无量纲公式,成为标量。 例如,复阻抗可以规范化书写。 z=rjl=r(1jl/r )。 复部分是纯数,没有维度。

另外,在微波中,有电路分析、信号系统、电磁波传输等多个运算能够这样处理,在保证运算便利性的同时,能够突出物理量的本质含义。

规范化有两个优点1 .提高模型的收敛速度

如下图所示,x1的值为0-2000,而x2的值为1-5。 如果仅具有这两个特征,则将其优化,得到宽度窄的椭圆形,在坡度下降时,坡度的方向沿与等高线垂直的方向以锯齿方式前进,反复变慢,而右图的反复变快(图2 )

2 .提高模型精度

规范化的另一个优点是提高精度。 这在涉及几种距离计算的算法时效果明显。 例如,这将导致精度的损失,因为算法计算蓬勃的仙人掌距离,所以上图中的x-2可能的范围相对较小,而如果涉及距离计算,则其对结果的影响远远小于x-1。 所以需要正规化,他可以使各特征对结果的贡献相同。

在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的维度和订单。 如果各指标之间的水平相差较大,直接用原始指标进行分析,将突出高数值指标在综合分析中的作用,相对削弱低数值指标的作用。 因此,为了保证结果的可靠性,有必要对原始指标数据进行标准化。

在数据分析之前,通常需要对数据进行标准化(normalization ),并利用标准化数据进行数据分析。 数据标准化是统计数据的指数化。 数据标准化处理主要有数据同步化处理和无量纲化处理两个方面。 数据同步化处理主要解决不同性质的数据问题,不同性质的指标直接相加不能准确反映不同作用力的综合结果。 首先,必须考虑改变逆指标数据的性质,使所有指标对评价方案的作用力同步化,然后进行加法运算才能得到正确的结果。 数据无量纲化处理主要解决数据的可比性。 经过上述标准化处理,原始数据均转化为无量纲化指标的评价值,即各指标值均处于相同数量水平,可以进行综合评价分析。

经验表明,归一化通过使不同维度之间的特征在数值上具有一定的可比性,可以大大提高分类器的准确性。

3 .通过深度学习将数据规范化,可以防止模型的梯度爆炸。

需要数据规范化的机器学习算法需要规范化模型。

在某些模型中,在每个维度上不均匀拉伸后,最佳解可能与原始解不等效。 例如,SVM (远离界面的esen变近,支持向量变多? 请参阅。 在这样的模型中,除了原本各维数据的分布范围比较近的情况以外,需要进行标准化以使模型参数不被分布范围大的数据或小的数据dominate。

   有些模型在各个维度进行不均匀伸缩后,最优解与原来等价,例如logistic regression(因为θ的大小本来就自学习出不同的feature的重要性吧?)。对于这样的模型,是否标准化理论上不会改变最优解。但是,由于实际求解往往使用迭代算法,如果目标函数的形状太“扁”,迭代算法可能收敛得很慢甚至不收敛。所以对于具有伸缩不变性的模型,最好也进行数据标准化。

不需要归一化的模型:

        ICA好像不需要归一化(因为独立成分如果归一化了就不独立了?)。

       基于平方损失的最小二乘法OLS不需要归一化。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。