数据挖掘中常用的六种算法,数据挖掘算法有哪些

当今时代大数据方兴未艾，数据挖掘也家喻户晓，但对于数据挖掘更具体的算法，外行人很少知道。

数据挖掘主要分为分类算法、聚类算法和关联规则三种，这三种基本上涵盖了目前商业市场对算法的所有需求。这三个类别包括许多经典算法。今天，我将介绍数据挖掘中最典型的十种算法。我希望那个对你有帮助。

一.分类决策树算法C4.5

C4.5是机器学习算法之一的分类决策树算法，是决策树(所谓决策树，是指进行决策的节点之间的组织方法如同树一般) )核心算法ID3的改良算法。

C4.5与ID3相比有以下改善。

1、按信息收益率选择属性

ID3选择属性使用子树的信息增益，这里可以用很多方法定义信息。 ID3用的是熵(shang )，不纯度标准，即熵的变化值，C4.5用的是信息收益率。区别一个是信息增益，一个是信息收益率。

2、在造树过程中进行剪枝。制作决策树时，有几个要素悬挂的节点，如果不考虑最佳，就容易成为疑似节点。

3、能够处理非离散数据和不完整数据。

该算法适用于临床决策、生产制造、文档分析、生物信息学、空间数据建模等领域。

二. k均值算法

k均值算法(k均值算法)是一种聚类算法，根据其属性将n个分类对象分类为k类) kn )。与处理混合正态分布的最大期望算法相似。因为他们试图找到数据中的自然聚类中心。这假设对象的属性来自空间向量，目标是使各组内的均方误差总和最小。

在算法的表达上，它并不一定能保证得到全局最优解，最终解的质量在很大程度上取决于初始化的组。由于该算法快速，常用的方法之一是多次运行k均值算法，选择最优解。

k均值算法常用于图像分割、商品分类和客户分析。

三.支持向量机算法

支持向量机(Support Vector Machine )算法缩写为SVM，是广泛应用于统计分类和回归分析的一种监督学习方法。

SVM的主要思想可以归纳为两点：

(1)对可线性分离的情况进行了分析，在不可线性分离的情况下，通过使用非线性映射算法，将低维输入空间的不可线性分离的样本转换为高维特征空间使其可线性分离

)2)基于结构风险最小化理论，构造特征空间最优分割超平面，使学习器全局优化，且整个样本空间有期望风险的概率满足一定的上限。

四. The Apriori algorithm

Apriori算法是一种挖掘最具影响力的布尔关联规则频繁项集的算法，其核心是基于两级“频繁项集”思想的递归算法。相关关联规则在分类上属于单维、单层、布尔关联规则。在此，所有支持度大于最小支持度的项集合称为频繁出现项集合，简称频率集合。

该算法的基本思想是首先找到所有的频率集合，这些频率集合的出现频率至少与预定义的最小支持度相同。并且，根据频率集中生成强的相关规则，这些规则需要满足最小支持度和最小可靠度。然后，使用在步骤1中发现的频率集合生成期望的规则，生成只包含集合项的所有规则。其中，每个规则右部只有一项。这里采用中规则的定义。生成这些规则后，将只保留大于用户给定的最小可靠性的规则。为了生成所有的频率集合，使用了递归方法。

在消费市场价格分析、入侵检测、移动通信领域等领域，Apriori算法有着广泛的应用前景。

五.最大期望(EM )算法

在统计计算中，最大期望(EM，expectation-maximization )算法是在依赖于不可观测的隐藏变量的概率模型中寻找参数的最大似然估计的算法。最大的期望常用于机器学习和计算机视觉的数据集积分领域。

最大期望算法通过两个步骤交替计算，第一步是计算期望(e )，即计算最大似然期望，以可观测地包含隐藏变量；步骤2，最大化(m )，也就是最大化在e步骤中找到的最大似然期望值计算参数的最大似然估计。在m步骤中找到的参数然后被用于另一个e步骤计算，该过程不断交替。

六. Page Rank算法

Page Rank是谷歌算法的重要内容。 Page Rank根据站点外部和内部链接的数量和质量来衡量站点的价值。

Page Rank背后的概念是，每个指向页面的链接都是对该页面的投票，被链接的越多，就越会投票给其他网站。这就是所谓的“链接流行度”——，衡量有多少人想把自己的网站和你的网站联系起来。

确实，PageRank算法是一种适合爬行动物、页面排序、文献检索、搜索引擎的算法。

七. Ada Boost迭代算法

Ada boost是一种迭代算法，以对同一训练集训练不同的分类器(弱分类器)，将这些弱分类器聚集在一起构成更强的最终分类器(强分类器)为主。

从原理上讲，它本身通过改变数据分布来实现计算。 Adaboost算法基于每个训练集中每个样本的分类是否正确以及前一次总体的准确度来确定每个样本的权重。将修改了权重的新数据集发送到下级分类器进行训练，最后将每次训练得到的分类器进行最后融合，作为最后的决策分类器(强分类器)。

p>它被广泛应用于人脸检测、目标识别等领域。

八、kNN 最近邻分类算法

K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

KNN算法不仅可以用于分类，还可以用于回归。通过找出一个样本的k个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值，如权值与距离成正比。

该算法适合处理稀有事件的分类问题，例如：
客户流失预测、欺诈侦测等等。

九、Naive Bayes 朴素贝叶斯算法

在众多的分类模型中，应用最为广泛的两种分类模型是决策树模型和朴素贝叶斯模型(Naive Bayesian Model，NBC)。

Naive Bayes 算法通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，并选择具有最大后验概率的类作为该对象所属的类。朴素贝叶斯模型所需估计的参数很少，对缺失数据不太敏感，其算法也比较简单。

其常用于处理垃圾邮件过滤和文本分类。

十、CART: 分类与回归树算法

分类与回归树算法（CART，Classification and Regression Trees）是分类数据挖掘算法的一种，有两个关键的思想：第一个是关于递归地划分自变量空间的想法；第二个想法是用验证数据进行剪枝。

其抽取规则简便且易于理解，而且在计算时往往只需要用简单的乘法，因此降低了计算的负荷，在面对存在缺失值、变量数多等问题时表现非常稳健。

CART算法可应用于信息失真识别、潜在客户识别、预测贷款风险等场景。

那么亲该专注哪种算法呢，小编觉得每一种算法都是经典，每一种算法都值得去学习。至于要用哪种算法？还得看实际的应用场景和业务需求！
总结一句话：数据挖掘之路漫漫而修远，潜心修炼方能修成正果！
最后欢迎关注小编或添加小编微信公众号“中移模组”，我们等你一起加入探讨的喔！

中移物联网有限公司是中国移动通信集团公司出资成立的全资子公司。公司按照中国移动整体战略布局，围绕“物联网业务服务的支撑者、专用模组和芯片的提供者、物联网专用产品的推动者”的战略定位，专业化运营物联网专用网络，设计生产物联网专用模组和芯片，打造车联网、智能家居、智能穿戴等特色产品，开发运营物联网连接管理平台OneLink和物联网开放平台OneNET，推广物联网解决方案，形成了五大方向业务布局和物联网“云-管-端”全方位的体系架构。为向社会提供更加优质的物联网技术、产品及服务，推动产业发展，公司密切协同中国移动各省公司及专业公司，以开放、合作、共享的发展理念，广泛开展国际、国内企业合作，以市场化机制独立运作，力争成为立足全国，服务全球的物联网领先企业，推动物联网在各行业的规模应用。