首页 > 编程知识 正文

数据的归一化与标准化,最大值归一化标准化处理

时间:2023-05-03 11:49:50 阅读:173426 作者:1318

中心化(Zero-centered或Mean-subtraction )或x(=xx^{'}=x-x )=x

获得平均值为0的数据是标准化处理的步骤之一

作用:对于PCA中的协方差矩阵来说,中心化可以使协方差矩阵的计算量更小,而不影响结果。 允许模型只关注weights,而不考虑bias。 基向量的正交性标准化(Standardization )即x (=xx ^ {prime }=frac { x- mu } {sigma } x )=x

获得了3均值为0,标准差为1的数据,http://www.Sina.com/

作用:数据标准化(规范化)处理是数据挖掘的基础工作,不同的评价指标的维数和维数单位往往不同,这种情况会影响数据分析的结果,为了消除指标之间维数的影响,对数据进行标准化处理以解决数据指标之间的可比性原始数据经数据标准化处理后,各项指标处于同一数量级,适合综合比较评估。

加快了求解梯度下降最优解的速度,加速了权参数的收敛

如下图所示,x1的值为0-2000,而x2的值为1-5。 如果只有这2个特征的话,将其最优化的话,就会得到宽度较窄的椭圆形,坡度下降的时候,坡度的方向会以之字形向与等高线垂直的方向前进,反复会变慢,与此相对,右图的反复会变快()

可以提高精度。 某些分类器(KNN、SVM、deep learning )需要计算采样之间的距离(例如KNN )。 当一个特征值域的范围非常大时,距离计算主要取决于这一特征,与实际情况相反。 例如,在这种情况下,实际情况是值域范围小的特征更重要。

归一化(即x=xminmaxminx ^ { * }=frac (x- min ) {max- min } x=maxminxmin

把数变成(0,1 )之间的小数

与规范化相同:标准化和标准化本质上是数据的线性变换

(异) Normalization严格限制转换后的数据范围。 例如,使用以前的最大值和最小值处理的规格化严格包含在[ 0,1 ]的范围内。

另一方面,Standardization中没有严密的区间,转换后的数据没有范围,只有平均值为0,标准偏差为1。 “规格化”(Normalization )数据的缩放比例仅与极值相关。 也就是说,例如100个的个数,除极大值和极小值以外的其他数据全部被交换,变焦率不变。 反过来看,是对的

标准化( Standardization)而言,如果除去极大值和极小值其他数据都更换掉,那么均值和标准差大概率会改变,这时候,缩放比例自然也改变了。 使用前提: 当原始数据不同维度特征的尺度(量纲)不一致时,需要标准化步骤对数据进行标准化或归一化处理,反之则不需要进行数据标准化。也不是所有的模型都需要做归一的,比如模型算法里面有没关于对距离的衡量,没有关于对变量间标准差的衡量。比如决策树,他采用算法里面没有涉及到任何和距离等有关的,所以在做决策树模型时,通常是不需要将变量做标准化的;另外,概率模型不需要归一化,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率。 用法 如果对处理后的数据范围有严格要求,那肯定是归一化,在不涉及距离度量、协方差计算的时候,可以使用归一化方法。标准化是ML中更通用的手段,如果你无从下手,可以直接使用标准化;如果数据不为稳定,存在极端的最大最小值,不要用归一化。在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,标准化表现更好; 小注

"标准化"和"归一化"这两个中文词要指代四种Feature scaling(特征缩放)方法
Rescaling x ′ = x − min ⁡ ( x ) max ⁡ ( x ) − min ⁡ ( x ) x^{prime}= frac{x- min(x)}{max(x)- min(x)} x′=max(x)−min(x)x−min(x)​
Mean normalization x ′ = x − m e a n ( x ) max ⁡ ( x ) − min ⁡ ( x ) x^{prime}= frac{x-mean(x)}{max(x)- min(x)} x′=max(x)−min(x)x−mean(x)​
Standardization x ′ = x − x ‾ σ x^{prime}= frac{x- overline{x}}{sigma} x′=σx−x​
Scaling to unit length x ′ = x ∣ ∣ x ∣ ∣ x^{prime}= frac{x}{||x||} x′=∣∣x∣∣x​

ps:个人不觉得只有归一化让椭圆变成了圆。。。

这里是引用
https://blog.csdn.net/weixin_36604953/article/details/102652160
https://www.zhihu.com/question/20467170

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。