意思是
数据标准化和规范化有区别
数据规范化是数据标准化的典型做法,即将数据统一映射到[ 0,1 ]区间。
数据标准化是指按比例缩放数据,并将其纳入特定区间
意思是
有必要解开
例如,在SVM中处理分类问题,需要数据的正规化处理,否则对精度有很大的影响。 具体而言,例如,数值过大,c、g能取的值不超过最佳范围
此外,最明显的是神经网络中的影响,主要有四个层面
有助于初始化的进行
不要在梯度数值更新中引起数值问题
有助于调整学习率的数值
加快搜索轨迹:寻找最佳解的速度
有关详细信息,请参阅3360神经网络为什么要标准化3360
在未规范化之前寻找最佳解的过程:
规范化过程:
3 .无量纲化(业务需求上的) :
消除数据的单位限制,将其转换为无量纲的纯数值,通过不同的单位或数量级指标进行加权。
身高和体重、房子数量和收入等
4 .数值问题
可能产生未归一化数值、例如浮点数值不相等的问题
5 .数值范围缩小对许多算法在纯数值计算中有一定的加速作用(个人看法,影响不大,但效果很好) )。
一般公式
最小最大标准化(最小最大标准化) )。
也称为分布式标准化,是对原始数据的线性变换,式如下
含义: max :采样最大值; min:采样最小值;
问题:如果添加了新数据,则需要重新进行数据规范化
2. z-score标准化(零均值标准化) )。
也称为标准偏差标准化,标准化数据呈现正态分布,即平均值为0,标准偏差为:如下式所示
其中是所有样本数据的平均值,是所有样本数据的标准差。 与偏差标准化不同的是,偏差标准化只是将原始数据的方差与平均值之差缩小了倍数,而标准偏差标准化则是将标准化数据的方差设为1。 这对许多算法更有利,但缺点是原始数据不分布在ssdlt中,标准化数据分布效果不好。
3. atan反正切函数标准化
下式:
问题:数据必须大于零,大于零的函数映射到[-1,0 ]
atan函数的图像为以下:
4. log函数标准化
下式:
问题:
a .数据不得少于1
b .如果数字大于10**10(10的10次方),则映射的数据将大于1
解决问题b的方案是将公式变更为“最小-最大标准化方式”,如下所示:
max:采样最大值
/log10(max )值方法确保所有示例都正确映射到[ 0,1 ]空间。