数据挖掘应用实例,数据挖掘期末总结

绪论为什么进行数据挖掘？

)1)已经获得的大量数据，大多数情况下数据丰富，但缺乏信息

)2)计算设备变得廉价且高功能

)3)如果没有强大的工具，数据量已经超过了人类的理解力

)4)数据采集存储速度越来越快

)5)现有技术已不适用于原始数据

(6)数据挖掘有助于科研

什么是数据挖掘？

从大量、不完整、有噪声、模糊、随机的实用数据中提取隐藏在其中、人们事先不知道但潜在有用的信息和知识的非平凡过程。

数据源必须真实、大量、含噪；

发现的是用户感兴趣的知识

发现的知识应能被接受、理解、运用

不寻求发现普遍知识，只支持特定的发现问题。

数据挖掘可以从业务的角度描述为基于企业制定的业务目标，对大量的企业数据进行搜索分析，揭示隐藏的、未知的或已知的规律性，进而对其建模的一种先进而有效的方法

数据仓库：

高质量的挖掘结果依赖于高质量的数据，而数据仓库为数据挖掘提供了良好的数据源，因此数据仓库是数据挖掘的最佳环境。

挖掘什么样的知识？数据(Data )、信息(Information )和知识

数据挖掘技术是如何把它们有机的结合在一起的？

从数据、信息、知识三个层面看，数据是最原始的组织化和未经处理的信息源。信息或有效信息是指对人们来说在某种意义上有价值的东西。知识是现实世界信息的抽象和浓缩，是概念、规则、模式、规律等。

数据挖掘技术通过对原始数据进行微观、中观或宏观的统计、分析、综合和推理，发现数据之间的相关性、未来趋势及一般摘要知识等，并将其转换为可用于指导人们高级商务活动的有用信息。

关联知识：

数据关联是数据库中存在的重要可发现知识之一。如果两个或多个变量的取值之间存在某种规律性，则称为相关。

知识分为简单关联规则、多层关联规则、多维关联规则、量化关联规则、基于约束的关联规则。

数据搜索和预处理数据准备是数据挖掘过程中的重要环节，具体工作主要有数据探索和数据预处理

数据搜索是指对通过调查、观测获得的初步杂乱数据，在尽可能少的先验假设下进行处理，通过验证数据集的数据质量、绘制图表、计算一些特征量等手段，分析样本数据集的结构和规律

数据搜索从数据质量和数据特征等两个角度进行分析。

数据探索的主要目的：

有助于选择合适的数据预处理和数据分析技术

可以通过直观地检查数据来发现模式

一些用于数据搜索的技术，如可视化，可以用来理解和解释数据挖掘的结果。

数据集：数据集是数据挖掘的对象，由数据对象组成，也称为示例、实例、数据点和元组。

属性：表示数据对象特性的数据字段。

属性向量(或特征向量) :用于描述特定对象的一组属性。

直方图应用范围：科研领域主要用于调查数据是否符合正态分布，其他领域不一定要看是否符合正态分布，而只考察数据分布情况。

距离选择的原则

)1)考虑选择的距离公式在实用上具有明确的意义。像slddw距离一样有非常明确的空间距离的概念。 fdgq距离有消除维度影响的作用。

)2)综合考虑样品观测数据预处理和采用的聚类分析方法。如果在进行聚类分析之前将变量标准化，通常可以在c中采用slddw距离。

)3)考虑研究对象的特点和计算量的大小。样本间距公式的选取是一个比较复杂和主观的问题，要根据研究对象的特点具体划分。实际上，可以在聚类分析之前尝试选择若干距离度量，分别进行聚类，并且比较分析聚类分析的结果以确定最佳距离度量。

分盒的主要目的是消除噪声，离散化连续数据，增加粒度，也常用作离散化技术。根据值的不同，可以分为平滑每个框的平均值、平滑每个框的中间值和平滑每个框的边界值。

数据合并：合并来自多个数据源的数据

数据转换：将数据规范化并转换为适合数据挖掘的格式。

数据聚合(data reduction )数据缩减或删减是指在不影响最终挖掘结果的情况下缩小被挖掘数据的规模

维数回归：主要用于检测和消除不相关、弱相关或冗余属性维数，最常用的方法是主成分分析、属性子集选择

PCA计算步骤：

(1)原始数据标准化；

2 )计算标准化变量之间的相关系数矩阵

(3)计算相关系数矩阵的特征值和特征向量；

(4)计算主成分变量值；

)5)分析统计结果，提取所需主要成分；

(6)将原始数据投影到新的基底上。

决策树算法采用自顶向下的递归方法，以信息熵为尺度构建熵值下降最快的决策树，其中每个内部

（非树叶）节点表示一个属性的测试，每个分支对应于测试的一个输出；
每个外部（树叶）节点表示一个类预测，在每个节点，算法选择“最好”的属性，将数据划分成类。
决策树算法具有可读性好、分类速度快的优点，是一种典型的有监督学习方法，在分类学习中得到广泛应用。

数据压缩就是利用数据编码或数据转换将原来的数据集合压缩为一个较小规模的数据集合。
数值归约：通过选择替代的、较小的数据表示形式来减少数据量。

ID3优缺点
优点：
理论清晰，方法简单，生成的规则易被人理解。
适用于处理大规模的学习问题。
构建决策树的速度较快。
ID3算法不存在无解的危险。
全盘使用训练数据，可以抵抗噪音，可得到一颗较为优化的决策树。

缺点：
ID3算法在属性选择时，倾向于选择那些拥有多个属性值的属性作为分裂属性，而这些属性不一定是最佳分裂属性。
只能处理离散属性，对于连续型的属性，在分类前需要对其进行离散化的处理，才可使用此方法。
无法对决策树进行优化，生成的决策树过拟合。
当类别太多时，错误可能就会增加的比较快。
ID3不能增量的接受训练集，每增加一次实例就抛弃原有的决策树，重新构造新的决策树，开销很大。

为了简化和统一考虑分类问题，我们假设分类目标只有两类，正例（positive）和负例（negtive）。则分类器的分类结果可能有四种情况，分别是：
（1）True Positives（TP）：预测为正样本，实际也为正样本的特征数；
（2）False Positives（FP）：预测为正样本，实际为负样本的特征数（错预测为正样本了，所以叫False）；
（3）True Negatives（TN）：预测为负样本，实际也为负样本的特征数；
（4）False Negatives（FN）：预测为负样本，实际为正样本的特征数（错预测为负样本了，所以叫False）