朴素贝叶斯算法原理及实现(朴素贝叶斯和贝叶斯区别)

1羞怯的大树决定论

羞怯的大树决策论是在统计概率框架下进行分类决策的基本方法。对分类任务来说，在所有相关概率都已知的情况下，羞怯的大木决定论将考虑如何基于这些概率和误判损失来预测分类。

假设在一个分类任务中有n种可能的分类，即y={c1、c2、c3、cN}。我们这样预测样本为ci的期望损失，也称为“条件风险”:

1、其中lambda_i_j是将一个类j的样本预测为类I的损失

2、p(c_j|x )表示将样本x预测为j类的概率

那么，学习的任务是什么？

学习任务通过寻找一个判定标准，利用该判定标准(分类器)进行分类预测，可以将条件风险最小化。

如果每个样本x的条件风险最小化，则整体风险也最小。

这被称为腼腆的大树判断标准。为了使整体风险最小化，只需要在每个样本中选择能够使条件风险最小化的类别标记。也就是说

被称为h*腼腆的大树最佳分类器。

说这些理论的话，我觉得大家更云云，让我们来看看实际朴素腼腆的大树分类器是如何构建的。

首先，假设lambda_i_j是这样的形状。

那么，再见

这样，使分类错误率最小化的腼腆的大树最佳分类器如下。

你怎么理解？

精明的秋季理解是根据羞怯的大树判断标准，预测某个样本属于哪个类别，计算所有后验概率p(c|x )，预测出概率最高类别的后验概率的类别。

那么，该如何计算后验概率p(c|x )呢？

腼腆的大树模型是生成模型，首先计算耦合概率p[c，x]，然后根据耦合概率计算后验概率。也就是说，利用以下腼腆的大树公式。

OK，那个联合概率和先验概率该怎么计算呢？羞怯的大树模型应该会出现。

2朴素腼腆的大树分类器

让我们详细分析一下羞怯的大树的公式。如果有训练集：

1、p(c )是样本所在类别的概率，如果给出样本及其等级，则容易计算

2、p(x )是某个样本(所有属性相同)出现的概率，如果给出样本，则容易得到

计算困难的是p(x|c ) :

其中，m是样品属性的个数，例如是预测西瓜是否甜的模型，根据西瓜图案是否清晰、声音是否清澈这两个属性来判断，属性个数为2，即m=2。

朴素腼腆的大树模型有样本属性条件独立性的假设。也就是说，如下所示。

如此腼腆的大树公式如下。

7549bc9c6ca196a8452f76?from=pc">

那么，朴素腼腆的大树模型得公式就调整为：

对于所有类别来说，P(x)相同，所以上式可以简化为：

好了，这就是朴素腼腆的大树模型基础理论的所有内容了。

到这里，反应快的同学就会说：“你说了这么多原理和公式，那么这个模型到底是怎么训练和预测的呢？”下面我们就来讨论这个问题。

3 朴素腼腆的大树模型的训练和预测

我们好好看看朴素腼腆的大树模型最后的表达式，带计算的参数有P(c)，P(x_i|c)。训练的过程，其实就是计算所有的P(c)，P(x_i|c)的过程。

假设数据集为D，Dc表示数据集中C类样本组成得集合。|D|表示数据集中样本的个数，|Dc|表示C类样本的个数。

那么P(c)可以如下表示：

P(x_i|c)可以用下式表示：

|Dc,x_i|表示样本属于c类，第i个属性为x_i的样本的数目。

在已知数据集的情况下，上面两个式字都很容易计算，得到所有P(c)和P(x_i|c)后，就完成了学习的过程。

那么，当来了一个新样本，该如何对该样本的类别进行预测呢？

假设新样本X(x_1,x_2,_x_3,....x_m)，总共有n个类别。根据最终的腼腆的大树公式

预测步骤如下：

(1)根据训练获得的概率值矩阵，第1个类别的P(c_1)和 P(x_1|c_1),P(x_2|c_1),...P(x_m|c_1)，并计算他们的乘积，得到属于第一个个类别的概率

(2)同上，计算样本属于其他类别的概率

(3)取概率最大的类别为预测样本的类别

这里总结一下：

朴素腼腆的大树模型在训练过程，利用数据集D，计算P(c)，P(x_i|c)。在预测时，输入样本，利用腼腆的大树公式，计算n个类别的，

最后输出概率最大的那个类别，作为预测的类别。

总结

整个看下来，朴素腼腆的大树模型的本质是针对样本属性的统计概率模型。要想朴素腼腆的大树模型的效果好，前期的特征工程和数据清洗是非常重要的工作。早期的机器学习分类模型，特征选择是至关重要的工作，直接决定了模型的效果，这点与现在的深度学模型有很大的差别。神经网络中，通常是在模型内进行特征提取与学习，这就大大减少了特征工程方面的工作