常用数据挖掘工具,数据模型的分类有哪些

机器学习和数据挖掘密切相关，进行数据挖掘需要学习机器学习所使用的方法和模型知识，通过模型的训练可以得到处理数据的最佳模型。数据挖掘中常用的模型有：

3.1教学模式监督

我们常说的分类是，训练现有的训练样本，即已知的数据和相应的输出，得到最佳模型，该模型属于某个函数的集合，如果最佳，则表示在某个评价标准下最佳。使用该模型可以将所有输入映射到相应的输出，从而轻松确定和分类输出，也具有将未知数据分类的能力。

3.1.1决策树：

决策树是用于分类和预测的主要技术之一，决策树学习是一种基于实例的归纳学习算法，着眼于从一系列没有顺序、没有规则的实例中推理决策树表示的分类规则。决策树的目的是找出属性与类别之间的关系，并用它预测未来未知类别记录的类别。采用自上而下的递归方式，在决策树的内部节点进行属性比较，根据属性值判断该节点自下而上的分支，在决策树的叶节点得出结论。

主要决策树算法有ID3、c4.5(c5.0 )、CART、PUBLIC、SLIQ、SPRINT算法等。它们在选择测试属性所采用的技术、生成的决策树的结构、剪枝的方法、时刻、能否处理大规模数据集等方面各有不同。

3.1.2贝叶斯方法：

贝叶斯分类算法是一种利用概率统计知识进行分类的算法，如朴素贝叶斯算法。这些算法主要利用Bayes定理来预测未知类的样本属于各自类的可能性，并选择其中最有可能的类作为该样本的最终类。贝叶斯定理的成立本身需要很强的条件独立性假设前提，但这种假设实际上往往不成立，导致分类准确性下降。因此，出现了很多贝叶斯分类算法，如基于贝叶斯网络结构添加属性对之间的关联的tan(treeAugmentednativeBayes )算法，可以降低独立性假设。

3.1.3神经网络

神经网络是应用类似大脑突触连接的结构进行信息处理的数学模型。在该模型中，许多节点(称为“神经元”)相互连接构成网络，即“神经网络”，从而达到处理信息的目的。神经网络通常需要进行训练，训练的过程是网络进行学习的过程。通过训练改变网络节点的连接权值使其具有分类功能，训练后的网络就可以用于对象的识别。目前神经网络已经有一百种不同的模型，常见的有BP神经网络、径向基RBF网络、Hopfield网络、随机神经网络(Boltzmann机)、竞争神经但是，目前神经网络仍然普遍存在收敛速度慢、计算量大、训练时间长、无法解释等缺点。

3.1.4支持向量机(SVM )

支持向量机(SVM，Support Vector Machine )是基于统计学习理论提出的一种新的学习方法，其最大特点是基于结构风险最小化准则，以最大化分类间隔构建最优分类超平面，提高学习机泛化能力，非线性、大方鸭对于分类问题，支持向量机算法根据区域中的样本计算该区域的确定曲面，从而确定该区域中未知样本的类别。

3.1.5集成学习分类模型

集成学习是机器学习的范式，通过连续调用单个学习算法获得不同的基础学习器，并根据规则将这些学习器组合起来试图解决相同的问题，可以显著提高学习系统的泛化能力。主要通过投票的方法组合多个基础学习器。常见算法有袋装(Bagging )、提升/推进(Boosting )、随机森林等。综合学习采用投票平均的方法组合多个分类器，可以减少各个分类器的误差，更准确地表示问题空间模型，提高分类器的分类精度。

3.1.6其他分类学习模式

另外还有logistics回归模型、隐马尔可夫分类模型[hmm]、基于规则的分类模型等很多分类模型，每个模型都有自己的特性和优点来处理不同的数据和分析不同的问题。

3.2无监督学习模式

在非监督式学习中，数据没有特别指定，学习模型是为了推测数据的内在结构，应用场合包括关联规则的学习和聚类等。常用的聚类算法包括：

3.2.1均值聚类

k均值算法的基本思想是，初始随机给出k个聚类中心，将根据最近邻原则分类的样本点划分为各个聚类。然后，用平均法重新计算各集群的重心，确定新集群的中心。重复到集群中心的移动距离cjdcc个的规定值。

3.2.2基于密度的聚类

根据密度完成对象的聚类。根据对象(如DBSCAN )周围的密度增加群集。一种典型的基于密度的方法是基于DBS can (基于设计的分布式集群自适应pplicationwithnoise，分布式扫描宽度) :该算法通过持续生长足够高的密度区域来执行聚类；可以从包含噪声的空间数据库中找到任意形状的聚类。此方法将群集定义为“密度连接”点集。 optics (订单点扩展特征群集生成结构) :计算增强的群集顺序以用于自动交互的群集分析，而不是显式生成群集。

3.2.3层次聚类方法

p>层次聚类方法对给定的数据集进行层次的分解，直到某种条件满足为止。层次凝聚的代表是AGNES算法，层次分裂的代表是如意的小猫咪算法。具体又可分为凝聚的，分裂的两种方案。

凝聚的层次聚类是一种自底向上的策略，首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有的对象都在一个簇中，或者某个终结条件被满足，绝大多数层次聚类方法属于这一类，它们只是在簇间相似度的定义上有所不同。

分裂的层次聚类与凝聚的层次聚类相反，采用自顶向下的策略，它首先将所有对象置于同一个簇中，然后逐渐细分为越来越小的簇，直到每个对象自成一簇，或者达到了某个终止条件。

3.2.4 谱聚类

谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图，使子图内部尽量相似，而子图间距离尽量距离较远，以达到常见的聚类的目的。其中的最优是指最优目标函数不同，可以是割边最小分割，也可以是分割规模差不多且割边最小的分割。谱聚类能够识别任意形状的样本空间且收敛于全局最优解，其基本思想是利用样本数据的相似矩阵(ykdxxm矩阵)进行特征分解后得到的特征向量进行聚类。

此外常用的聚类方法还有基于网格的聚类、模糊聚类算法、自组织神经网络SOM、基于统计学的聚类算法（COBWeb、AutoClass）等。

3.3 半监督学习

3.3.1 半监督学习概述

半监督学习算法要求输入数据部分被标识，部分没有被标识，这种学习模型可以用来进行预测，但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归，算法包括一些对常用监督式学习算法的延伸，这些算法首先试图对未标识数据进行建模，在此基础上再对标识的数据进行预测。如图论推理算法（Graph Inference）或者ykdxxm支持向量机（Laplacian SVM.）等。

3.3.2 Multi-view algorithm(多视角算法)

一般多用于可以进行自然特征分裂的数据集中．考虑特殊情况（每个数据点表征两个特征）：每一个数据点看成是两个特征的集合，然后利用协同训练(Co-training algorithm)进行处理．协同训练（co-training）算法，此类算法隐含地利用了聚类假设或流形假设，它们使用两个或多个学习器，在学习过程中，这些学习器挑选若干个置信度高的未标记示例进行相互标记，从而使得模型得以更新。

3.3.3 Graph-Based Algorithms(基于图的算法)

基于图的算法是基于图正则化框架的半监督学习算法，此类算法直接或间接地利用了流形假设，它们通常先根据训练例及某种相似度度量建立一个图，图中结点对应了（有标记或未标记）示例，边为示例间的相似度，然后，定义所需优化的目标函数并使用决策函数在图上的光滑性作为正则化项来求取最优模型参数。

3.4 文本处理模型

3.4.1 分词模型

分词模型主要在处理文本过程中使用，在此特指中文分词模型。中文分词算法现在一般分为三类：基于字符串匹配，基于理解，基于统计的分词。

基于字符串匹配分词：

机械分词算法。将待分的字符串与一个充分大的机器词典中的词条进行匹配。分为正向匹配和逆向匹配；最大长度匹配和最小长度匹配；单纯分词和分词与标注过程相结合的一体化方法。所以常用的有：正向最大匹配，逆向最大匹配，最少切分法。实际应用中，将机械分词作为初分手段，利用语言信息提高切分准确率。优先识别具有明显特征的词，以这些词为断点，将原字符串分为较小字符串再机械匹配，以减少匹配错误率；或将分词与词类标注结合。

基于理解分词：

分词同时进行句法语义分析等模拟人对句子的理解，包括分词子系统，句法语义系统，总控部分。总控部分协调下，分词字系统可以获得有关词，句子等的句法和语义信息对分词歧义进行判断。需要大量的语言知识信息。

基于统计分词：

相邻的字同时出现的次数越多，越有可能构成一个词语，对语料中的字组频度进行统计，不需要切词字典，但错误率很高。可以考虑：使用基本词典进行关键词分词，使用统计方法识别新词组，两者结合。

3.4.2 TF-IDF模型

TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜寻引擎还会使用基于连结分析的评级方法，以确定文件在搜寻结果中出现的顺序。

TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TFIDF实际上是：TF * IDF，TF词频(Term Frequency)，IDF反文档频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率（另一说：TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数）。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n=m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。（另一说：IDF反文档频率(Inverse Document Frequency)是指果包含词条的文档越少，IDF越大，则说明词条具有很好的类别区分能力。）但是实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处.

3.4.3 LDA模型

LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。

LDA是一种非监督机器学习技术，可以用来识别大规模文档集（document collection）或语料库（corpus）中潜藏的主题信息。它采用了词袋（bag of words）的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

4 模型评价指标

4.1 模型评价概述

建模构建过程中会得出一系列的分析结果、模式或模型。同一个采样数据可以利用多种数据分析方法和模型进行分析，模型评价的目的之一就是从这些模型中自动找出一个最好的模型出来，另外就是要针对业务对模型进行解释和应用。

模型效果评价通常分两步，第一步是直接使用原来建立模型的样本数据来进行检验。假如这一步都通不过，那么所建立的决策支持信息价值就不太大了。一般来说，在这一步应得到较好的评价。这说明你确实从这批数据样本中挖掘出了符合实际的规律性。第一步通过后，第二步是另外找一批数据，已知这些数据是反映客观实际的、规律性的。这次的检验效果可能会比前一种差，差多少是要注意的，若是差到所不能容忍程度，那就要考虑第一步构建的样本数据是否具有充分的代表性，或是模型本身是否够完善。这时候可能要对前面的工作进行反思了。若这一步也得到了肯定的结果时，那所建立的数据挖掘模型应得到很好的评价了。

人工智能、大数据、云计算和物联网的未来发展值得重视，均为前沿产业，多智时代专注于人工智能和大数据的入门和科谱，在此为你推荐几篇优质好文：
1.一分钟了解互联网数据挖掘流程
2.数据挖掘、人工智能、模式识别等学科的公共数学基础有哪些？
3.模式识别和机器学习、数据挖掘的区别与联系