首页 > 编程知识 正文

数据预处理的概念,使用pandas对数据预处理

时间:2023-05-04 21:32:21 阅读:138744 作者:1851

理解数据:

数据挖掘的一般步骤:数据采集——数据预处理——数据分析——数据挖掘

数据预处理:一般很重要。 最终挖掘效果的好坏,主要看预处理后的数据是否好。 预处理可能需要时间。

数据预处理包括四个任务:数据清洗、数据集成、数据转换和数据规约。

具体代码参考:

3359 blog.csdn.net/ddh k999/article/details/69261592? locationNum=3fps=1

一.数据清洗数据清洗:缺损值处理、异常值处理。

1. 缺失值处理:删除记录、补齐数据不处理。

经常用平均、中位数来弥补差距。

2. 异常值处理:分析异常值的原因,决定取舍。

(1)删除有异常值的记录)2)视为缺失值)3)平均值的修正)4)不处理

3358 www.Sina.com/http://www.Sina.com /把多个数据源放在一个统一的数据仓库中。

同名异义,绰号同义,单位不统一

二、数据集成多次出现相同属性,且相同属性的名称不匹配

标准化3358 www.Sina.com/http://www.Sina.com /数据

1.实体识别:

原始数据进行数学函数变换,进行平方、卡方、对数、差分运算。 用于将不具有正太分布的数据转换为具有正太性的数据。

在时间序列分析中,对数变换或差分运算可以将非平稳序列转换为平稳序列。

2.冗余属性识别:

消除指标之间的维度影响:

(1)最小-最大归一化(归一化)2)零-平均归一化(3)小数缩放归一化

将连续属性转换为分类属性,即离散化连续属性。 数据离散化本质上是通过断点集合将连续属性空间划分为几个区域,最后用不同的符号或整数值表示进入每个子区间的数据。 离散化包括两个子任务:确定分类和如何将连续属性值映射到这些分类值。

(1)等幅法;(2)等频法;(3)基于聚类分析的方法

三、数据变换

使用现有属性构建新属性并将其添加到现有属性中。

例如,将矩形的长度和宽度改变为面积——以减少数据维度。

1.简单函数变换

5. 2.规范化

非平稳序列的分析手段。

基于小波变换的特征提取方法:

(1)基于小波变换的多尺度空间能量分布特征提取法

)2)基于小波变换的多尺度空间模极大特征值提取法

)3)基于小波变换的特征提取方法

(4)基于自适应小波神经网络的特征提取方法

禁用3.连续属性离散化降低,错误数据对建模的影响,提高建模准确性。

具有较少代表性的数据将大大减少数据挖掘所需的时间。

降低存储数据成本。

4.属性构造

(1)属性整合;(2)正向选择;(4)正向删除;(4)决策树摘要)主成分分析

)6)小波变换

降维技术:主成分分析(应用最广泛)、因子分析、独立成分分析。

通过选择替代较小的数据来减少数据量。 包括有参数和无参数两种方法: (1)利用模型评估数据的参数方法。 不需要保存实际数据,只需要保存回归、对数线性模型等参数。

)2)需要无参数的数据,如直方图、聚类、采样等。

具体方法:分箱、回归、聚类、决策树、卡方检验。

数据预处理大致流程参考: https://blog.csdn.net/u 011094454/article/details/77618604

3359 blog.csdn.net/u 010089444/article/details/70053104

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。