首页 > 编程知识 正文

归一化和标准化的联系与区别,最大最小归一化公式

时间:2023-05-06 20:45:45 阅读:50266 作者:2042

一、原理介绍通常在建模前,需要对数据进行标准化处理,消除维度的影响。 如果按原样对未标准化的数据进行建模,则模型往往会学习太多数值大的变量,或者没有充分训练数值小的变量,导致模型的效果变差。 常见的数据标准化方法包括最大最小规范化、方差标准化、小数定标法、定量特征二值化等。

最大最小规范化正如其名,是利用数据串中的最大值和最小值进行规范化处理,规范化的值介于[ 0,1 ]之间,计算数据和该列的最小值之间的差,并将其除以极差。

具体公式为: x '=xminmaxminx '=frac { x-min } { max-min } x '=maxminxmin

其中,x表示各个数据的可能值,min是某个数据列的最小值,max是某个数据列的最大值。

最大最小正规化容易受到极端值的影响,如果某列的数据中存在极端值,则根据实际的业务场景,可以事先去除极端值或异常值,或者取对数等标准化后的数据接近正态分布。

二、代码实现#过滤加载模块froms klearn.preprocessingimportstandardscalerimportwarningswarnings.filter warnings #警告的含义import 读取数据data=PD.read _ CSV (f :/data/data.CSV ), encoding='gbk ' ) #bgk是中文代码# 表示阅览数据前5行的data.head ()1)资产负债率;2 )除去保证金的资产负债率;3 )长期资本负债率;4 )长期资产适合率;5 )权益乘数00.6557990.6067080.6138650.4990 . 93299020.9573910.9415430 60.5306370.95808640.8052350.7960710.8614800.5412990.957462 froms klearn.preprocesss 返回值1 )区间的数据standard _ data=minmax scaler (.fit _ transform ) data ) #标准化数据standard _ data array ([ 0.65608912,0.6000 ]

[ 0.75239351,0.70921165,0.84163884,1 .0.93938095]

[ 0.95781436,0.9464991,0.0.49346475,0.99540256 ]

…,

[0.73319974、0.65164941、0.51791243、0.50922178、0.92607276]

[0.66202637、0.56413243、0.75722411、0.49343682、0.81677841],

[ 0.88919966,0.85747254,0.0.49297322,0.98517934 ] )

#由于标准化数据为array格式,因此将其转换为数据框standard _ data=PD.data frame (standard _ data ),使数据成为csv文件,然后进行后续建模

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。