数据挖掘文本分类,数据挖掘与预测算法

常用的分类算法分类算法NBC算法LR算法SVM算法ID3算法C4.5算法C5.0算法KNN算法迷路海豚算法

分类算法

分类是指训练分类器，使其能够在已经知道类别标签的样本群中对某个未知样本进行分类。分类算法是有监督的学习。分类算法的分类过程是创建描述给定数据集或概念集的分类模型，并通过分析由属性描述的数据库元组来建立模型。分类的目的是利用分类对新数据集进行分类，主要涉及分类规则的正确性、过度拟合、矛盾区分的取舍选择等。分类算法的分类效果如图所示。

常见的分类算法包括朴素贝叶斯分类器(NBC )算法、朴素贝叶斯分类器(lr )逻辑注册、逻辑回归(算法、 ID3 (迭代二叉树3代)决策树算法、C4.5决策树算法、C5.0决策树算法、SVM (支持支持向量机)算法

NBC算法NBC模型来源于经典数学理论，具有坚实的数学基础。该算法是基于条件独立性假设的算法，条件独立性假设成立时，用贝叶斯公式计算其后验概率，即该对象属于某个类的概率，选择具有最大后验概率的类作为该对象所属的类。NBC算法的优点

NBC算法逻辑简单，易于实现； NBC算法所需估计参数较少的NBC算法对缺失数据不太敏感； NBC算法误差分类率小的NBC算法性能稳定，健壮性比较好；NBC算法的缺点

1 .属性个数较多或属性之间相关性较大时，NBC模型分类效果相对较差；

2 .算法基于条件独立性假设，在实际应用中难以成立，影响分类效果

LR算法LR回归是目前业界常用的机器学习方法，用于估计某些事物的可能性。它与多元线性回归是同一个家族，即广义线性模型。简而言之，多元线性回归是将特征值与相应概率直接相乘得到一个结果，逻辑回归是将逻辑函数加到这种结果中。这里选择LR作为回归分析模型的代表进行介绍。LR算法的优点

1 .对数据中小噪声鲁棒性好

2.LR算法已经广泛应用于工业问题；

3 .多重共线性不是问题，可以结合正则化解决。

LR算法的缺点

1 .关于非线性特性，需要转换

2 .特征空间大时，LR的性能不太好

SVM算法SVM算法是基于统计学习理论的机器学习方法，是十大数据挖掘算法之一。通过学习算法，SVM可以自动查找对分类具有良好识别能力的支撑向量，从而使得分类器可以最大化类与类之间的间隔，因此具有良好的自适应能力和较高的得分率。 SVM算法的目的是寻找能够分离训练集中的数据的超平面h，由于与类边界在垂直于超平面的方向上的距离最大，SVM方法也被称为最大边缘算法。

SVM算法的优点

1.SVM模型有较高的得分率；

2. SVM模型有很高的泛化性能

3. SVM模型能很好地解决高维问题；

4. SVM模型对小样本情况下的机器学习问题有效果。

SVM算法的缺点

1.SVM模型对缺失数据敏感；

2 .非线性问题没有共同的解决方案，必须慎重选择内核函数进行处理。

ID3算法ID3算法是一种基于决策树的分类算法，基于信息论，以信息熵和信息增益为度量标准，实现数据的归纳分类。信息增益用于测量某一属性对样本集合的分类好坏。 ID3算法的时间复杂度为o(n*|d|*log|d|)。

ID3算法的优点

用ID3算法生成的决策树规模比较小，查询速度快。ID3算法的缺点

1 .不适合处理连续数据

2 .难以处理大量数据集

3 .种树时选择属性值大的进行分离，但属性值大的可能不一定能对更多的数据信息作出反应。

C4.5算法C4.5算法是ID3算法的修订版，使用信息增益进行改进，选择具有最大增益率的分割变量作为准则，避免ID3算法的过度拟合问题。

C4.5算法优点

1.C4.5继承了ID3的优点

2 .木结构中进行剪枝

3 .能够处理不完整的数据；

4 .能够完成连续属性离散化处理；

5 .生成的分类规则容易理解，准确率高

6 .通过按增益率选择属性，克服按增益选择属性时的偏差，选择值多的属性。

C4.5 算法缺点

1 .在构建树时，数据集需要多次顺序扫描和排序，导致算法效率低下；

2 .仅适用于可驻留在内存中的数据集，当训练集达到时

存无法容纳时程序无法运行。

C4.5 用于遥感分类过程中，首先依据通常的方式建立第一个模型。随后建立的第二个模型聚焦于被第一个模型错误分类的记录。以此类推，最后应用整个模型集对样本进行分类，使用加权投票过程把分散的预测合并成综合预测。Boosting 技术对于噪声不大的数据，通常通过建立的多模型来减少错误分类的影响，提高分类精度。

C5.0算法

C5.0 算法是 Quinlan 在C4.5 算法的基础上改进而来的产生决策树的一种更新的算法，它除了包括C4.5 的全部功能外，还引入许多新的技术，其中最重要的技术是提升（Boosting）技术，目的是为了进一步提高决策树对样本的识别率。同时C5.0 的算法复杂度要更低，使用更简单，适应性更强，因此具有更高的使用价值。

C5.0算法的优点
1.C5.0 模型能同时处理连续和离散的数据
2.C5.0 模型估计
模型通常不需要很长的训练时间；
3.C5.0 引入Boosting 技术以提高分类的效率和精度；
4.C5.0 模型易于理解，模型推出的规则有非常直观的解释；
5.C5.0 模型在面对数据遗漏和特征很多的问题时非常稳健。

C5.0算法的缺点
目标字段必须为分类字段。

美国地质调查局(USGS)在进行土地覆盖分类项目过程中研发了支持决策树分类的软件。软件分类模块主要是针对庞大数据量的数据集进行数据挖掘，找出特征，然后建立规则集进行决策分类。在分类模块中采用C5.0 模型来完成决策树分类、形成分类文件，实现遥感影像的分类。

KNN 算法

KNN 算法是Cover 和Hart 于1968 年提出的理论上比较成熟的方法，为十大挖掘算法之一。该算法的思路非常简单直观：如果一个样本在特征空间中的k 个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

KNN算法的优点
1.KNN 算法简单、有效；
2.KNN 算法适用于样本容量比较大的类域的自动分类；
3.由于KNN 方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN 方法较其他方法更为适合。

KNN算法的缺点
1.KNN 算法计算量较大；
2.KNN 算法需要事先确定K 值；
3.KNN 算法输出的可解释不强；
4. KNN 算法对样本容量较小的类域很容易产生误分。

迷路的小海豚算法

人工神经网络（迷路的小海豚）算法就是一组连续的输入/输出单元，其中每个连接都与一个权相关。在学习阶段，通过调整神经网络的权，使得能够预测样本的正确类标号来学习。

迷路的小海豚算法的优点
1.能处理数值型及分类型的属性；
2.分类的准确度高，分布并行处理能力强；
3.对包含大量噪声数据的数据集有较强的鲁棒性和容错能力。

迷路的小海豚算法的缺点
1.不能观察之间的学习过程；
2.学习时间过长，甚至可能达不到学习的目的；
3.对于非数值型数据需要做大量数据预处理工作；
4.输出结果难以解释，会影响到结果的可信度和可接受程度；
5.神经网络需要大量的参数，如网络拓扑结构、权值和阈值的初始值。

小结：

算法名称收敛时间是否过度拟合是否过渡拟合缺失数据敏感度训练数据量NBC快存在不敏感无要求LR快存在敏感无要求SVM一般存在敏感小数据量ID3快存在不敏感小数据集C4.5快存在不敏感小数据集C5.0快不存在不敏感大数据集迷路的小海豚慢存在敏感大数据集KNN快存在敏感数据量多

创建了一个技术闲聊群：有兴趣可加我微信，拉你一起讨论杂七杂八的技术，虽然大家都不怎么活跃！
加好友备注：你的博客名 && 随便给我的任意文章点个赞或留言