oracle类型转换函数,函数归一化公式

一、特征二值化

二.特征正规化

(一)、总和标准化

(二)、标准偏差标准化

(三)极大值标准化

(四)、极差标准化(区间简并法，0-1标准化)。

三.连续特征变换

四.定性特征伪代码： One-hot代码

数据转换

数据转换将数据规范化，以便于后续的信息挖掘。典型的数据转换包括特征二值化、特征归一化、连续特征变化、定性特征伪代码等。

一、特征二值化

特征二值化的核心旨在设置一个阈值，将特征与该阈值进行比较，然后将连续数值的细粒度度量转换为粗粒度度量(0或1 (仅考虑是否出现某些特征，而不考虑出现次数、程度) )。

Python将特征二值化的方法如下所示。

结果如下。

二.特征正规化

特征规范化又称数据无量纲化，主要包括总和标准化、标准差标准化、极大值标准化、极差标准化。另外，在基于树的方法中，不需要GBDT、bagging、boosting等特征归一化，在基于参数的模型和基于距离的模型中需要特征归一化。

(一)、总和标准化

总和的归一化处理后的数据在[ 0，1 ]之间，并且它们的和为1。总和标准化的步骤和公式也非常简单。分别求出在各集群要素中定义的数据的总和，将各要素的数据除以该要素的数据的总和，则为：

总和标准化处理后得到的新数据满足以下要求：

(二)、标准偏差标准化

标准偏差的标准化公式如下

其中

标准偏差标准化处理后得到的新数据，各要素(指标)的平均值为0，标准偏差为1，即

(三)极大值标准化

结果极大值的标准化公式如下。

极大值标准化后的新数据，各要素的最大值为1，其余各项都小于1。

以稀疏数据为中心会破坏稀疏数据的结构，因此没有什么意义，但可以将稀疏数据标准化。极大值标准化是为稀疏数据设计的，同时这也是常见的方法。必须在Python中将极大值设置为MaxAbsScaler ()，在Python中使用标准偏差标准化(StandardScaler ) (with_ )

(四)、极差标准化(区间简并法，0-1标准化)。

极差的标准化计算公式如下

经过极差标准化处理的新数据，各要素的极大值为1，极小值为0，剩下的数值都在0和1之间。这里的min{x_ij}和max{x_ij}是指与x_ij相同列的最小值和最大值。

如果数据有偏差，将数据平均值和方差标准化将不起作用。在这种情况下，可以改为使用robust_scale和RobustScaler。它们具有对数据中心化和数据缩放的高鲁棒性参数。

三.连续特征变换

连续特征变换的一般方法有多项式数据变换、指数函数数据变换和对数函数数据变换三种。连续特征变换可以增加数据非线性特征捕获特征之间的关系，有效提高模型的复杂度。

四.定性特征伪代码： One-hot代码

one-hot码也称为独热码，一个比特表示一个状态，对于它的信息中的离散特征，有一些状态为几个比特，而且只有有该状态的比特为1，其它比特为0。

那么，这三个值是如何进行one-hot编码的呢？所以我们用one-hot代码，

也就是说：

天气： {多云、下雨、晴天}

湿度： {稍高、正常、低}

(天气)多云、湿度)低)时进行单独热码，如果天气状态码能得到(100 )，湿度状态码为(001 )，则连接两者为最后的单独热码) {100001}。此时，{ 0，2 }转换后的长度为6=3(3，即{100001} )。

sklearn有自己的封装热代码。 OneHotEncoder

输出：

代码分析：

data是一个矩阵，每列表示一个特征。可见，矩阵有三个特征，第一个特征有两个特征值[ 0，1 ]，第二个特征有三个特征值[ 0，1，2，3 ]。如果输入[ 1，2，2 ]，则对应于第一个特征，特征值为1的比特为1，第二个特征的特征值为2的比特为1，第三个特征的特征值为2的比特为1。

对离散特征进行one-hot编码，距离计算更加合理。

————————————————

这是CSDN博客“R3”的原始文章，符合CC 4.0 BY-SA版权协议。请附上原文来源的链接和本声明。

原文链接： https://blog.csdn.net/sys STC/article/details/84532396