数据标准化(规范化)处理是数据挖掘的基础工作,不同的评价指标往往有不同的维度和维度单位,这种情况会影响数据分析的结果。 为了消除指标之间维度的影响,需要进行数据标准化处理以解决数据指标之间的可比性。 原始数据经数据标准化处理后,各项指标在同一位,适合综合比较评价。
以下是两种常见的规范化方法:一、min-max标准化(Min-Max Normalization)
也称为分布式标准化,对原始数据进行线性变换,并将结果值映射到[0-1]之间。 转换函数如下:
这里,max是样本数据的最大值,min是样本数据的最小值。
优点:维护源数据存在的关系,消除取值范围的最简单方法;
缺点:易受离群值的影响,如果数据集中的某个数值较大,则其他各值归一化后接近0; 另外,遇到超过[min,max]的值时会发生错误。
二. Z-score标准化方法
该方法给出原始数据的平均值(mean )和标准偏差)进行数据的标准化。 处理的数据符合标准正态分布。 也就是说,平均值为0,标准偏差为1,转换函数如下。
这里是所有样本数据的平均值,是所有样本数据的标准偏差。 该方法应用广泛,但平均值和标准差也同样容易受到离群值的影响,需要修正。 例如,用中央值代替平均值进行上述计算。
三.小数比例规范化
该方法移动特征数据的小数点后的位数并在[-1,1 ]之间转换。 要移动的小数位数由特征值绝对值的最大值决定,表达式如下:
包含内容的网站:
3359 www.cn blogs.com/Chao simple/p/3227271.html
3359 blog.csdn.net/lyq _ 12/article/details/81349525