朴素贝叶斯算法步骤,朴素贝叶斯分类器优点

我根据自己的理解，给出了朴素贝叶斯分类算法的核心，sdxtz给出了简明详细的说明，希望对你有帮助~

贝叶斯分类是基于贝叶斯定理的分类算法的总称，统称为贝叶斯分类。朴素贝叶斯分类是贝叶斯分类中最简单、最常见的分类方法。

分类问题概述

关于分类问题，其实谁也不知道，在日常生活中我们每天都在进行分类过程。比如，ddxs看人，在你的脑海里有意识地判断他是学生还是社会人。你经常走在路上对旁边的朋友说“这个人乍一看很有钱”，其实这是一种分类操作。

因为是贝叶斯分类算法，所以分类的数学描述是什么呢？

在数学上，分类问题可以定义如下。已知集合

和

另外，以任意的方式决定映射规则y=f(x )

只有一个

按一下

成立。

这里，c被称为类别集合，各要素是类别，I被称为项集合(特征集合)，各要素是分类对象的项，f被称为分类器。分类算法的任务是构建分类器f。

分类算法的内容是给出特征，让其给出类别，这也是所有分类问题的关键。那么，如何指定特征，得到我们的最终类别，也是我们接下来要说的。每个不同的分类算法都对应于不同的核心思想。

答案通过具体实例介绍了朴素贝叶斯算法中几乎所有的关键知识点。

天真贝叶斯分类

那么，朴素贝叶斯分类算法，其核心算法是什么呢？

以下是贝叶斯公式：

改变表达方式的话可以明确如下。

我们最终要的p (类别|特征)就可以了！相当于完成了我们的任务。

例题分析

先举个例子吧。

指定的数据如下

这里的问题是，如果有男女朋友，而男人想向女人求婚，男人的四个特点分别是不帅、性格差、个子矮、没有上进心。请判断女性结婚还是不结婚。

这是典型的分类问题，转移到数学问题的是p (结婚| (不帅，性格差，个子矮，不上) )和p ) )不结婚| (性格差，个子矮，不上) )的概率比较，谁

这里涉及朴素贝叶斯公式：

我们需要p () )不帅，性格不好，个子矮，不上进)。这个我们不知道，但是根据奈瑟斯公式，可以转换成容易求出的三个量。 p ) )、不帅、性格差、身高矮、不上)、p ) ) 65 )

朴素贝叶斯算法对朴素素一词的解释

那么，这三个量怎么求？

是根据已知的训练数据统计得到的，下面详细介绍了这个例子的求解过程。

回想一下我们要求的公式：

那么我求p (不帅、性格差、个子矮、没有上进心|媳妇)、p )不帅、性格差、个子矮、没有上进心)、p )就行了。是的，分别求出这些概率，用最后的比得到最终的结果。

等等，为什么这个会成立呢？学习概率论的学生可能感觉到了，这个等式成立的条件需要特征之间独立吧。

是啊！所以朴素贝叶斯分类有朴素这个词的由来，朴素贝叶斯算法假设各个特征之间是相互独立的，这个等式就成立了

但是，为什么需要假设特征之间是独立的呢？

1、我们这样认为。如果没有这个假设的话，我们其实是不能估算右边的这些概率的。这么说来，我们的例子有四个特征。其中，帅气有{帅，帅}，性格有{不好，好，容易爆发}，身高有{高，低，中}，上有{不在上面，上有上}，这四个特征的

24个，计算机扫描统计还可以，但在现实生活中，往往有很多特点，每个特点的可取值也非常多。那么，几乎不能通过统计来推测后面概率的值了。因此，需要假设特征之间是独立的。

2、如果我们没有假设特征之间是相互独立的，那么我们统计的时候，就需要在整个特征空间中寻找。例如，统计p (不帅、性格差、身高矮、没有上进心|媳妇) )、

我们需要寻找在结婚的条件下，四个特征都满足的，分别是不帅、性格差、个子矮、不上进的人数。这样，由于数据稀疏性，可以很容易地统计0的状况。这不合适。

由于以上两个原因，朴素贝叶斯方法对条件概率分布提出了条件独立性假设。因为这是一个很强的假说，朴素贝叶斯也由此得名！该假设使单纯法变得简单，但有时会牺牲一定的分类精度。

是的，上面说明了为什么可以分解成分进行联合。那么，开始解决吧！

至此，展示了问题中朴素贝叶斯分类和一般贝叶斯分类的区别。