首页 > 编程知识 正文

数据标准化的作用,数据挖掘标准化方法

时间:2023-05-04 23:51:43 阅读:50250 作者:254

意思是

数据标准化和规范化有区别

数据规范化是数据标准化的典型做法,即将数据统一映射到[ 0,1 ]区间。

数据标准化是指按比例缩放数据,并将其纳入特定区间

意思是

有必要解开

例如,在SVM中处理分类问题,需要数据的正规化处理,否则对精度有很大的影响。 具体而言,例如,数值过大,c、g能取的值不超过最佳范围

此外,最明显的是神经网络中的影响,主要有四个层面

有助于初始化的进行

不要在梯度数值更新中引起数值问题

有助于调整学习率的数值

加快搜索轨迹:寻找最佳解的速度

有关详细信息,请参阅3360神经网络为什么要标准化3360

在未规范化之前寻找最佳解的过程:

规范化过程:

3 .无量纲化(业务需求上的) :

消除数据的单位限制,将其转换为无量纲的纯数值,通过不同的单位或数量级指标进行加权。

身高和体重、房子数量和收入等

4 .数值问题

可能产生未归一化数值、例如浮点数值不相等的问题

5 .数值范围缩小对许多算法在纯数值计算中有一定的加速作用(个人看法,影响不大,但效果很好) )。

一般公式

最小最大标准化(最小最大标准化) )。

也称为分布式标准化,是对原始数据的线性变换,式如下

含义: max :采样最大值; min:采样最小值;

问题:如果添加了新数据,则需要重新进行数据规范化

2. z-score标准化(零均值标准化) )。

也称为标准偏差标准化,标准化数据呈现正态分布,即平均值为0,标准偏差为:如下式所示

其中是所有样本数据的平均值,是所有样本数据的标准差。 与偏差标准化不同的是,偏差标准化只是将原始数据的方差与平均值之差缩小了倍数,而标准偏差标准化则是将标准化数据的方差设为1。 这对许多算法更有利,但缺点是原始数据不分布在ssdlt中,标准化数据分布效果不好。

3. atan反正切函数标准化

下式:

问题:数据必须大于零,大于零的函数映射到[-1,0 ]

atan函数的图像为以下:

4. log函数标准化

下式:

问题:

a .数据不得少于1

b .如果数字大于10**10(10的10次方),则映射的数据将大于1

解决问题b的方案是将公式变更为“最小-最大标准化方式”,如下所示:

max:采样最大值

/log10(max )值方法确保所有示例都正确映射到[ 0,1 ]空间。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。