首页 > 编程知识 正文

常见的数据挖掘算法有哪些,数据挖掘算法汇总

时间:2023-05-05 07:34:11 阅读:56207 作者:700

朴素贝叶斯

朴素贝叶斯分类法是一种统计学分类方法,在特征条件独立的前提下,根据基于贝叶斯定理计算的隶属概率进行分类。

朴素贝叶斯分类具有坚实的数学基础和稳定的分类效率,同时分类模型需要估计的参数少,对缺失数据不太敏感,算法也比较简单。

理论上,朴素贝叶斯分类模型与其他分类方法相比误差率最小,但实际情况并非总是如此。 这是因为朴素贝叶斯分类模型假设各属性之间是独立的,但这种假设在很多情况下并不实用,因此在一定程度上影响了模型的准确分类。

决策树

决策树是类似于流程图的树结构。 其中,每个内部节点表示属性上的测试,每个分支表示该测试的输出,每个叶节点保存类标签,顶级节点表示根节点。

创建决策树时,使用属性选择度量选择将元组划分为不同类的属性。 决策树中的许多分支可能反映训练数据中的噪声或离群点,用剪枝识别减去是这样的分支,提高泛化性。

常见的决策树模型包括ID3、C4.5和CART。 都采用自上而下递归的分支方式构建决策树,各算法之间的区别在于在制作决策树时如何选择属性和剪枝机制。

K最近邻分类

k最近邻分类算法(KNN )的中心思想是,如果一个样本属于特征空间中k歌最邻近样本中大多数的类别,则该样本也属于该类别并且具有该类别上的样本特性。

该方法仅基于最近邻的一个或多个样本的类别来确定分类确定目标样本所属的类别。 KNN算法在确定类别时只涉及极少量的相邻样本。

KNN方法主要依赖于周围有限的邻近样本来确定所属类,而不是判别类域的方法,因此KNN算法比其他方法更适合于具有大量类域交集或重叠的被分类样本集。

KNN算法不仅可以用于分类,还可以用于回归。 通过找到给定样本的k个最近邻居并将这些邻居的属性的平均值提供给该样本,可以获得该样本的属性。 一种更有用的方法是将不同距离的邻居对其样本的影响设置为不同的权重,其中权重与距离成反比。

神经网络

人工神经网络

人工神经网络是模仿生理神经网络结构和功能设计的信息处理系统。 它从信息处理的角度抽象人脑神经网络,建立某种简单的模型,通过不同的连接方式构成不同的网络。

许多人工神经元以一定的规则连接到神经网络,神经元之间的连接以及每个连接的权重表示特定的信息。

神经网络分散存储信息,具有很高的容错能力。 每个神经元都可以进行独立的运算,处理接收信息并输出结果,同时神经网络具有并行运算能力,实时性强。

神经网络对信息处理具有自组织、自学习的特点,便于联想、综合、推广。

深度学习

深度学习源于人工神经网络的研究,目的是建立能够模仿人脑进行分析学习的神经网络,模仿人脑的结构来解释数据。

深度学习模型结构是一个包含多个隐藏层的多层感知器,它通过组合底层特征形成更抽象的高层表示属性的类或特征,从而发现数据的分布式特征表示。

深度学习概念由Hinton等人于2006年提出,是基于深度信任网络(DBN )提出的非监督贪婪分层训练算法,其目的是解决深层结构的优化问题。 之后,他们提出了多层自动编码器深层结构。

另外,Lecun等人提出的卷积神经网络(CNN )是第一种真正的多层结构学习算法,利用空间相对关系减少参数数量,提高训练性能。

深度学习包含相当广泛的机器学习技术和结构,根据这些结构和技术的应用方法,可以分为以下三类。

生成型深度结构。 该结构描述数据的高阶相关特性或与观测数据对应的类别的联合概率分布; 分区型深度结构。 目的是提供正确的事情

模式分类的区分性能力,通常描述数据的后验分布;混合型结构。它的目标是区分性的,但通常利用生成型结构的输出更易优化。  支持向量机

支持向量机(Support Vector Machine,SVM)算法是经典的机器学习算法之一,无论在理论分析还是实际应用中都已取得了很好的成果。

SVM算法由Vapnik和Chervonenkis共同提出,其理论基础是Vapnik提出的“结构风险最小化”原理。

SVM算法泛化能力很强,在解决很多复杂问题时有很好的表现。例如,为满足美国邮政服务局利用手写邮政编码进行邮件自动分类的需要,Boser和Guyon等人利用SVM算法对手写阿拉伯数字进行了识别。

后来,Osuna E和Freund R提出了基于SVM的面部识别方法。Joachims等利用SVM算法实现了对路透社新闻故事数据集的文本分类。

除了数据分类,SVM逐渐被应用于回归分析、多种背景的模式识别、数据挖掘、函数逼近拟合、医学诊断等多个领域。

如今,SVM已成为机器学习领域的主要研究方向之一,它所代表的统计学理论也必将带来机器学习领域的一场深刻变革。

SVM算法的思想源于线性学习器,即Rosenblatt感知机。感知机可以将线性可分的两种不同类型的样例自动划分为两类。

如果这两类样例不是线性可分的,就可以用核函数方法将实验对象的属性表达于高维特征向量中并由最优化理论的学习算法进行训练,实现由统计学理论推导得出的学习偏置,从而达到分类的效果。

 

相关文章:

常用数据挖掘算法举例(下)

智能反欺诈算法概览

数学模型漫谈

什么是机器学习?(上)

什么是机器学习?(下)

基于个人信用评分的建模分析和授信决策

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。