首页 > 编程知识 正文

oracle类型转换函数,函数归一化公式

时间:2023-05-06 02:01:31 阅读:31460 作者:452

一、特征二值化

二.特征正规化

(一)、总和标准化

(二)、标准偏差标准化

(三)极大值标准化

(四)、极差标准化(区间简并法,0-1标准化)。

三.连续特征变换

四.定性特征伪代码: One-hot代码

数据转换

数据转换将数据规范化,以便于后续的信息挖掘。 典型的数据转换包括特征二值化、特征归一化、连续特征变化、定性特征伪代码等。

一、特征二值化

特征二值化的核心旨在设置一个阈值,将特征与该阈值进行比较,然后将连续数值的细粒度度量转换为粗粒度度量(0或1 (仅考虑是否出现某些特征,而不考虑出现次数、程度) )。

Python将特征二值化的方法如下所示。

结果如下。

二.特征正规化

特征规范化又称数据无量纲化,主要包括总和标准化、标准差标准化、极大值标准化、极差标准化。 另外,在基于树的方法中,不需要GBDT、bagging、boosting等特征归一化,在基于参数的模型和基于距离的模型中需要特征归一化。

(一)、总和标准化

总和的归一化处理后的数据在[ 0,1 ]之间,并且它们的和为1。 总和标准化的步骤和公式也非常简单。 分别求出在各集群要素中定义的数据的总和,将各要素的数据除以该要素的数据的总和,则为:

总和标准化处理后得到的新数据满足以下要求:

(二)、标准偏差标准化

标准偏差的标准化公式如下

其中

标准偏差标准化处理后得到的新数据,各要素(指标)的平均值为0,标准偏差为1,即

(三)极大值标准化

结果极大值的标准化公式如下。

极大值标准化后的新数据,各要素的最大值为1,其余各项都小于1。

以稀疏数据为中心会破坏稀疏数据的结构,因此没有什么意义,但可以将稀疏数据标准化。 极大值标准化是为稀疏数据设计的,同时这也是常见的方法。 必须在Python中将极大值设置为MaxAbsScaler (),在Python中使用标准偏差标准化(StandardScaler ) (with_ )

(四)、极差标准化(区间简并法,0-1标准化)。

极差的标准化计算公式如下

经过极差标准化处理的新数据,各要素的极大值为1,极小值为0,剩下的数值都在0和1之间。 这里的min{x_ij}和max{x_ij}是指与x_ij相同列的最小值和最大值。

如果数据有偏差,将数据平均值和方差标准化将不起作用。 在这种情况下,可以改为使用robust_scale和RobustScaler。 它们具有对数据中心化和数据缩放的高鲁棒性参数。

三.连续特征变换

连续特征变换的一般方法有多项式数据变换、指数函数数据变换和对数函数数据变换三种。 连续特征变换可以增加数据非线性特征捕获特征之间的关系,有效提高模型的复杂度。

四.定性特征伪代码: One-hot代码

one-hot码也称为独热码,一个比特表示一个状态,对于它的信息中的离散特征,有一些状态为几个比特,而且只有有该状态的比特为1,其它比特为0。

那么,这三个值是如何进行one-hot编码的呢? 所以我们用one-hot代码,

也就是说:

天气: {多云、下雨、晴天}

湿度: {稍高、正常、低}

(天气)多云、湿度)低)时进行单独热码,如果天气状态码能得到(100 ),湿度状态码为(001 ),则连接两者为最后的单独热码) {100001}。 此时,{ 0,2 }转换后的长度为6=3(3,即{100001} )。

sklearn有自己的封装热代码。 OneHotEncoder

输出:

代码分析:

data是一个矩阵,每列表示一个特征。 可见,矩阵有三个特征,第一个特征有两个特征值[ 0,1 ],第二个特征有三个特征值[ 0,1,2,3 ]。 如果输入[ 1,2,2 ],则对应于第一个特征,特征值为1的比特为1,第二个特征的特征值为2的比特为1,第三个特征的特征值为2的比特为1。

对离散特征进行one-hot编码,距离计算更加合理。

————————————————

这是CSDN博客“R3”的原始文章,符合CC 4.0 BY-SA版权协议。 请附上原文来源的链接和本声明。

原文链接: https://blog.csdn.net/sys STC/article/details/84532396

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。