在机器学习领域的数据分析之前,通常需要对数据进行标准化,并使用标准化的数据进行数据分析。 到不同的评价指标
如果具有不同的维和维单位,这种情况会影响数据分析的结果,需要数据才能消除指标之间的维影响
标准化处理以解决数据指标之间的可比性。 原始数据经数据标准化处理后,各项指标处于同一数量级,适合综合
调整比较评价。
Contents
1. 归一化的定义
2. 常用归一化方法
1. 归一化的定义
归一化一般是指对数据进行处理并限定在一定的范围内。 例如,经常被限制为区间[ 0,1 ]或[-1,1 ]
等等。 那么为什么要正规化呢? 首先,作为重要的概念,奇异样本数据所谓的特异样本数据
指相对于其他输入样本特别大或特别小的样本向量。 例如,以下两个特征样本数据
上面第五列的数据相对于其他列的数据是特殊样本数据,特殊样本数据的存在会引起训练时间的增加,有引用的可能性
无法平息。 因此,在存在特异样本数据的情况下,优选在进行训练之前进行归一化,但在不存在特异的样本数据的情况下可以
就像不用正规化一样。
2. 常用归一化方法
常用归一化方法有3358www.Sina.com/、最大-最小标准化、Z-score标准化等。
函数转化
最大-最小标准化对原始数据进行线性变换,将和分别作为属性的最小值和最大值
如果原始值通过最大-最小归一化映射到区间[ 0,1 ]的值,则表达式为
(1)最大-最小标准化
(2)Z-score标准化Z-score标准化是基于原始数据的平均值和标准偏差的数据标准化。 用Z-score标记属性的原始数据
准化成。 如果不知道属性的最大值或最小值,或者存在超出值范围的离散数据,则Z-score标准化适用
情况。
其中是平均的,标准偏差。
Z-score标准化的结果是所有数据都聚集在0附近,方差为1。
也有对数函数变换、逆余切函数变换等归一化方法,但很少使用,暂时放弃。
版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。