数据预处理的概念,使用pandas对数据预处理

理解数据：

数据挖掘的一般步骤：数据采集——数据预处理——数据分析——数据挖掘

数据预处理：一般很重要。最终挖掘效果的好坏，主要看预处理后的数据是否好。预处理可能需要时间。

数据预处理包括四个任务：数据清洗、数据集成、数据转换和数据规约。

具体代码参考：

3359 blog.csdn.net/ddh k999/article/details/69261592？ locationNum=3fps=1

一.数据清洗数据清洗：缺损值处理、异常值处理。

1. 缺失值处理：删除记录、补齐数据不处理。

经常用平均、中位数来弥补差距。

2. 异常值处理：分析异常值的原因，决定取舍。

(1)删除有异常值的记录)2)视为缺失值)3)平均值的修正)4)不处理

3358 www.Sina.com/http://www.Sina.com /把多个数据源放在一个统一的数据仓库中。

同名异义，绰号同义，单位不统一

二、数据集成多次出现相同属性，且相同属性的名称不匹配

标准化3358 www.Sina.com/http://www.Sina.com /数据

1.实体识别：

原始数据进行数学函数变换，进行平方、卡方、对数、差分运算。用于将不具有正太分布的数据转换为具有正太性的数据。

在时间序列分析中，对数变换或差分运算可以将非平稳序列转换为平稳序列。

2.冗余属性识别：

消除指标之间的维度影响：

(1)最小-最大归一化(归一化)2)零-平均归一化(3)小数缩放归一化

将连续属性转换为分类属性，即离散化连续属性。数据离散化本质上是通过断点集合将连续属性空间划分为几个区域，最后用不同的符号或整数值表示进入每个子区间的数据。离散化包括两个子任务：确定分类和如何将连续属性值映射到这些分类值。

(1)等幅法；(2)等频法；(3)基于聚类分析的方法

三、数据变换

使用现有属性构建新属性并将其添加到现有属性中。

例如，将矩形的长度和宽度改变为面积——以减少数据维度。

1.简单函数变换

5. 2.规范化

非平稳序列的分析手段。

基于小波变换的特征提取方法：

(1)基于小波变换的多尺度空间能量分布特征提取法

)2)基于小波变换的多尺度空间模极大特征值提取法

)3)基于小波变换的特征提取方法

(4)基于自适应小波神经网络的特征提取方法

禁用3.连续属性离散化降低，错误数据对建模的影响，提高建模准确性。

具有较少代表性的数据将大大减少数据挖掘所需的时间。

降低存储数据成本。

4.属性构造

(1)属性整合；(2)正向选择；(4)正向删除；(4)决策树摘要)主成分分析

)6)小波变换

降维技术：主成分分析(应用最广泛)、因子分析、独立成分分析。

通过选择替代较小的数据来减少数据量。包括有参数和无参数两种方法： (1)利用模型评估数据的参数方法。不需要保存实际数据，只需要保存回归、对数线性模型等参数。

)2)需要无参数的数据，如直方图、聚类、采样等。

具体方法：分箱、回归、聚类、决策树、卡方检验。

数据预处理大致流程参考： https://blog.csdn.net/u 011094454/article/details/77618604

3359 blog.csdn.net/u 010089444/article/details/70053104