理解数据:
数据挖掘的一般步骤:数据采集——数据预处理——数据分析——数据挖掘
数据预处理:一般很重要。 最终挖掘效果的好坏,主要看预处理后的数据是否好。 预处理可能需要时间。
数据预处理包括四个任务:数据清洗、数据集成、数据转换和数据规约。
具体代码参考:
3359 blog.csdn.net/ddh k999/article/details/69261592? locationNum=3fps=1
一.数据清洗数据清洗:缺损值处理、异常值处理。
1. 缺失值处理:删除记录、补齐数据不处理。
经常用平均、中位数来弥补差距。
2. 异常值处理:分析异常值的原因,决定取舍。
(1)删除有异常值的记录)2)视为缺失值)3)平均值的修正)4)不处理
3358 www.Sina.com/http://www.Sina.com /把多个数据源放在一个统一的数据仓库中。
同名异义,绰号同义,单位不统一
二、数据集成多次出现相同属性,且相同属性的名称不匹配
标准化3358 www.Sina.com/http://www.Sina.com /数据
1.实体识别:
原始数据进行数学函数变换,进行平方、卡方、对数、差分运算。 用于将不具有正太分布的数据转换为具有正太性的数据。
在时间序列分析中,对数变换或差分运算可以将非平稳序列转换为平稳序列。
2.冗余属性识别:
消除指标之间的维度影响:
(1)最小-最大归一化(归一化)2)零-平均归一化(3)小数缩放归一化
将连续属性转换为分类属性,即离散化连续属性。 数据离散化本质上是通过断点集合将连续属性空间划分为几个区域,最后用不同的符号或整数值表示进入每个子区间的数据。 离散化包括两个子任务:确定分类和如何将连续属性值映射到这些分类值。
(1)等幅法;(2)等频法;(3)基于聚类分析的方法
三、数据变换
使用现有属性构建新属性并将其添加到现有属性中。
例如,将矩形的长度和宽度改变为面积——以减少数据维度。
1.简单函数变换
5. 2.规范化
非平稳序列的分析手段。
基于小波变换的特征提取方法:
(1)基于小波变换的多尺度空间能量分布特征提取法
)2)基于小波变换的多尺度空间模极大特征值提取法
)3)基于小波变换的特征提取方法
(4)基于自适应小波神经网络的特征提取方法
禁用3.连续属性离散化降低,错误数据对建模的影响,提高建模准确性。
具有较少代表性的数据将大大减少数据挖掘所需的时间。
降低存储数据成本。
4.属性构造
(1)属性整合;(2)正向选择;(4)正向删除;(4)决策树摘要)主成分分析
)6)小波变换
降维技术:主成分分析(应用最广泛)、因子分析、独立成分分析。
通过选择替代较小的数据来减少数据量。 包括有参数和无参数两种方法: (1)利用模型评估数据的参数方法。 不需要保存实际数据,只需要保存回归、对数线性模型等参数。
)2)需要无参数的数据,如直方图、聚类、采样等。
具体方法:分箱、回归、聚类、决策树、卡方检验。
数据预处理大致流程参考: https://blog.csdn.net/u 011094454/article/details/77618604
3359 blog.csdn.net/u 010089444/article/details/70053104