我根据自己的理解,给出了朴素贝叶斯分类算法的核心,sdxtz给出了简明详细的说明,希望对你有帮助~
贝叶斯分类是基于贝叶斯定理的分类算法的总称,统称为贝叶斯分类。 朴素贝叶斯分类是贝叶斯分类中最简单、最常见的分类方法。
分类问题概述
关于分类问题,其实谁也不知道,在日常生活中我们每天都在进行分类过程。 比如,ddxs看人,在你的脑海里有意识地判断他是学生还是社会人。你经常走在路上对旁边的朋友说“这个人乍一看很有钱”,其实这是一种分类操作。
因为是贝叶斯分类算法,所以分类的数学描述是什么呢?
在数学上,分类问题可以定义如下。 已知集合
和
另外,以任意的方式决定映射规则y=f(x )
只有一个
按一下
成立。
这里,c被称为类别集合,各要素是类别,I被称为项集合(特征集合),各要素是分类对象的项,f被称为分类器。 分类算法的任务是构建分类器f。
分类算法的内容是给出特征,让其给出类别,这也是所有分类问题的关键。 那么,如何指定特征,得到我们的最终类别,也是我们接下来要说的。 每个不同的分类算法都对应于不同的核心思想。
答案通过具体实例介绍了朴素贝叶斯算法中几乎所有的关键知识点。
天真贝叶斯分类
那么,朴素贝叶斯分类算法,其核心算法是什么呢?
以下是贝叶斯公式:
改变表达方式的话可以明确如下。
我们最终要的p (类别|特征)就可以了! 相当于完成了我们的任务。
例题分析
先举个例子吧。
指定的数据如下
这里的问题是,如果有男女朋友,而男人想向女人求婚,男人的四个特点分别是不帅、性格差、个子矮、没有上进心。 请判断女性结婚还是不结婚。
这是典型的分类问题,转移到数学问题的是p (结婚| (不帅,性格差,个子矮,不上) )和p ) )不结婚| (性格差,个子矮,不上) )的概率比较,谁
这里涉及朴素贝叶斯公式:
我们需要p () )不帅,性格不好,个子矮,不上进)。 这个我们不知道,但是根据奈瑟斯公式,可以转换成容易求出的三个量。 p ) )、不帅、性格差、身高矮、不上)、p ) ) 65 )
朴素贝叶斯算法对朴素素一词的解释
那么,这三个量怎么求?
是根据已知的训练数据统计得到的,下面详细介绍了这个例子的求解过程。
回想一下我们要求的公式:
那么我求p (不帅、性格差、个子矮、没有上进心|媳妇)、p )不帅、性格差、个子矮、没有上进心)、p )就行了。 是的,分别求出这些概率,用最后的比得到最终的结果。
p (不帅,性格不好,个子矮,不上|不嫁人() p )不帅|嫁人(p )性格不好|嫁人(p )个子矮|嫁人) )上不去|嫁人也得到左边的概率。
等等,为什么这个会成立呢? 学习概率论的学生可能感觉到了,这个等式成立的条件需要特征之间独立吧。
是啊! 所以朴素贝叶斯分类有朴素这个词的由来,朴素贝叶斯算法假设各个特征之间是相互独立的,这个等式就成立了
但是,为什么需要假设特征之间是独立的呢?
1、我们这样认为。 如果没有这个假设的话,我们其实是不能估算右边的这些概率的。 这么说来,我们的例子有四个特征。 其中,帅气有{帅,帅},性格有{不好,好,容易爆发},身高有{高,低,中},上有{不在上面,上有上},这四个特征的
24个,计算机扫描统计还可以,但在现实生活中,往往有很多特点,每个特点的可取值也非常多。 那么,几乎不能通过统计来推测后面概率的值了。 因此,需要假设特征之间是独立的。
2、如果我们没有假设特征之间是相互独立的,那么我们统计的时候,就需要在整个特征空间中寻找。 例如,统计p (不帅、性格差、身高矮、没有上进心|媳妇) )、
我们需要寻找在结婚的条件下,四个特征都满足的,分别是不帅、性格差、个子矮、不上进的人数。 这样,由于数据稀疏性,可以很容易地统计0的状况。 这不合适。
由于以上两个原因,朴素贝叶斯方法对条件概率分布提出了条件独立性假设。 因为这是一个很强的假说,朴素贝叶斯也由此得名! 该假设使单纯法变得简单,但有时会牺牲一定的分类精度。
是的,上面说明了为什么可以分解成分进行联合。 那么,开始解决吧!
至此,展示了问题中朴素贝叶斯分类和一般贝叶斯分类的区别。