处理数据时,经常涉及标准化问题。
数据的标准化(normalization)是将数据缩放到适合较小的特定区间。 常用于一些比较和评价指标处理,去除数据的单位限制,将其转换为无量纲纯数值,使不同单位或订单的指标可以比较和加权。
一方面,数据标准化分类1 .在极差的标准化样本中,每个特征的最大值和最小值之差极差。
已知两个样本,每个样本有n个特征。
极端差/全距离计算:
极端标准化的计算:
2 .分布式标准化计算公式:
但是,Si是样品分散
标准化的方法很多,是否应该将原始数据标准化,应该用什么样的方法标准化,要根据情况来决定。
二、标准化有什么方法? 2.1归一化方法归一化方法又称方差归一化,是对原始数据的线性变换,将结果映射到[ 0,1 ]区间。
2.2归一化方法
该方法根据原始数据的平均(mean )和标准偏差)进行数据的标准化。 使用z-score将a的原始值x标准化为x’。 z-score标准化方法适用于不知道属性a的最大值和最小值,或者存在超出取值范围的偏离数据的情况。 SSS的默认标准化方法是z-score标准化。 如何在Excel中进行z-score标准化: Excel没有现成的函数,需要自己按步骤进行计算,但实际上标准化公式很简单。 步骤如下。
1 .求各变量(指标)算术平均值(数学期望) xi和标准差si;
2 .进行标准化处理: zij=(xij-Xi )/si
其中zij是标准化变量值,xij是实际变量值。
3 .调换反向指标前的符号。
标准化变量的值以0为中心上下移动,大于0时高于平均,小于0时低于平均。
2.3归一化方法
其中,规范化算法如下:
线性变换: y=(x-minvalue (/max value-minvalue )对数函数变换: y=log10(x ) x )反余函数变换: y=Atan(x ) *2/PI线性也与对数函数结合335550