(数据挖掘导论复习)

文章目录第1章数据挖掘的认识1、数据挖掘的定义2、有指导学习和无指导学习3、数据挖掘的过程4、数据挖掘的作用5、数据挖掘技术第2章基本数据挖掘技术1、决策树概念和C4.5算法的一般过程2、决策决策树规则：决策树、生成式规则、正确率和覆盖率4、Apriori算法的基本思想5、关联规则的可靠性和支持度6、k均值算法的基本思想7、k均值聚类分析实例第三章数据库中的知识发现1、数据预处理：数据平滑与数据标准化第5章评价技术1、评价分类类型输出模型：混淆矩阵与分类正确率2、评价数值型输出模型：平均绝对误差、均方误差、均方误差第6章神经网络1、神经元模型2、BP神经网络卷积神经网络的基本操作——卷积与池化第7章统计技术1、简单线性回归2、贝叶斯分析：贝叶斯分类器3、凝聚聚类算法的一般步骤4、Cobweb层次聚类算法： CU值的计算

第一章数据挖掘1、关于数据挖掘的定义

http://www.Sina.com/http://www.Sina.com /

目的是寻找和发现数据中有潜在价值的信息、知识、规律、联系和模式。

数据挖掘涉及计算机科学，一般采用机器学习、统计学、在线分析处理、专家系统和模式识别等多种方法来实现。技术角度

数据挖掘是一门交叉学科，涉及数据库技术、人工智能技术、统计学、可视化技术、并行计算等多种技术。利用一种或多种计算机学习技术，从数据中自动分析并提取信息的处理过程。

商务智能信息处理技术

对围绕业务目标展开的大量业务数据进行提取、转换、分析和处理，从中提取支持业务决策的关键数据，揭示隐藏的、未知的或已知的规律性，是一种深层次的业务数据分析方法

2、有指导学习和无指导学习学科角度

其目的是训练输出许多已知分类或结果值的实例，并调整分类模型的结构，从而能够准确地分类或预测未知模型。这种基于归纳的概念学习过程称为有指导(监督)的学习。商业角度

在学习训练之前，没有预定义的分类实例，数据实例根据一种相似性度量方法来计算实例之间的相似性，将最相似的实例聚类成一个组——集群，解释和理解每个集群的含义，并且

3、数据挖掘过程一次数据挖掘实验分为四个步骤

(一)培训数据准备和数据准备，包括检测数据

)2)选择数据挖掘技术或算法，向数据挖掘软件提交数据

)3)结果解释与评价

)4)模型应用

4、建立有数据挖掘作用指导的学习模式和无指导的聚类模式。

5、数据挖掘技术的神经网络

回归分析

相关分析

聚类技术

第二章基本数据挖掘技术1、决策树概念和C4.5算法的一般流程有指导学习定义

由数据生成决策树的机器学习技术称为决策树学习，简称决策树Decision Tree。

决策树是数据挖掘中最常用的分类和预测技术，可以用来建立分类和预测模型。

决策树模型是树结构，树中的每个节点表示要分析的属性，每个分支表示该属性的可能值，每个叶节点表示从根节点到该叶节点的路径上的对象的值。模型根据树的各枝对对象进行分类，叶节点表示的对象值表示决策树分类的结果。决策树只有一个输出。如果需要多个输出，可以创建多个独立的决策树来处理不同的输出。无指导学习

)1)给出以“属性-值”形式表示的数据集t。数据集由多个输入属性和具有一个输出属性的多个实例组成。

)2)选择最能区分t中实例的输入属性，C4.5使用增益率选择此属性。

)3)使用此属性创建树节点，同时创建节点的分支。每个分支都取该节点的所有可能值。

)4)使用这些分支将数据集中的实例分类为细分子类。

)5)假设当前子类的实例集合为t，对数据集中的其余属性重复步骤(2) )3)，直到满足以下两个条件之一，然后结束该过程，并将叶节点分类为沿着该分支表示的分类类别

子类中的实例符合预定义的标准。例如，所有实例都被划分为一个输出类，而被划分为一个输出类的实例达到某个比率。

没有剩下的属性。

2、决策树关键技术：最大收益率

3、决策树规则：决策树、生成式规则、正确率和覆盖率

4、生成Apriori算法的基本思想(1)入口复位(Item Sets )。条目复位是满足一定支持度要求的“属性-值”的组合。由于不符合支持要求的属性和值组合将被放弃，因此规则生成过程将在合理的时间内完成。

)2)使用生成的条目集创建一组关联规则。

5、用关联规则的可靠度和支持度可靠度测定各关联规则在前提条件下结果发生的可能性

能性。
使用支持度度量包含了关联关系中出现的属性值的交易占所有交易的百分比。

6、K-means算法的基本思想

（1）随机选择一个K值，用以确定簇的总数。
（2）在数据集中任意选择K个实例，将它们作为初始的簇中心。
（3）计算这K个簇中心与其他剩余实例的简单gsdkl距离（Euclidean Distance），用这个距离作为实例之间相似性的度量，将与某个簇相似度高的实例划分到该簇中，成为其成员之一。
（4）使用每个簇中的实例来计算该簇新的簇中心。
（5）如果计算得到新的簇中心等于上次迭代的簇中心，终止算法过程。否则，用新的簇中心作为簇中心并重复步骤（3）~（5）。

7、K-means聚类分析实例

略

第3章数据库中的知识发现 1、KDD的定义

从数据集中提取可信的、新颖的、具有潜在使用价值的能够被人类所理解的模式的非繁琐的处理过程。
定义解析
KDD——一个处理过程，大部分步骤是系统自动执行的；
数据集——一个有关事实的集合；
模式——针对某个数据集，描述了数据自身的特性；
可信的——要求发现的模式必须经过了正确性检验，能够应用到新数据中；
新颖的——表示发现的模式应该是以前没有发现的、希望得到的新发现；
潜在使用价值——表示发现的模式应该有价值、有意义，价值和意义一般不能直接从数据中看出来或查询和搜索出来，是可以被利用的潜在价值；
可被人理解——发现的模式是人们容易理解的，从而更好的被评估和利用。

2、数据预处理：数据平滑和数据标准化

分箱平滑方法

第5章评估技术 1、评估分类类型输出模型：混淆矩阵和分类正确率

2、评估数值型输出模型：平均绝对误差，均方误差，均方根误差

第6章神经网络 1、神经元模型

2、BP神经网络结构

3、BP算法的一般过程

（1）初始化网络
若有必要，变换输入属性值为[0,1]区间的数值数据，确定输出属性格式；
通过选择输出层、隐层和输出层的结点个数，来创建神经网络结构；
将所有连接的权重初始化为[-1.0,1.0]区间的随机值；
为学习参数选择一个[0,1]区间的值；
选取一个终止条件。
（2）对于所有训练集实例：
让训练实例通过神经网络；
确定输出误差；
使用Δ规则更新网络权重。
（3）如果不满足终止条件，重复步骤（2）。
（4）在检验数据集上检验网络的准确度，如果准确度不是最理想的，改变一个或多个网络参数，从（1）开始。

4、卷积神经网络的基本操作——卷积和池化

第7章统计技术 1、简单线性回归

2、贝叶斯分析：贝叶斯分类器

3、凝聚聚类算法的一般步骤

（1）开始时，将每个数据实例放在不同的分类中；
（2）直到所有实例都成为某个簇的一部分；
①确定两个最相似簇；
②将在①中选中的簇合并为一个簇。
（3）选择一个由步骤（2）迭代形成的簇作为最后结果。

4、Cobweb分层聚类算法：CU值的计算

第8章时间序列和基于Web的数据挖掘 1、时间序列挖掘及其处理过程

时间序列挖掘
对时间序列进行数据挖掘的过程，即从时间序列数据中提取未知的、具有潜在价值的与时间属性相关的知识或规律，用于短期、中期或长期预测。
时间序列数据挖掘的处理过程
1）确定数据挖掘目标，抽取并建立时间序列数据集，选择合适的数据挖掘技术或算法；
2）在时间序列中设置内部时间间隔，将时间序列分割为若干个子序列；
3）建立预测模型，应用模型预测未知值。

2、Web数据挖掘的三种类型

Web内容挖掘（Web Content Mining，WCM）
Web结构挖掘（Web Structure Mining，WSM）
Web使用挖掘（Web Usage Mining，WUM