首页 > 编程知识 正文

朴素贝叶斯算法原理及实现(朴素贝叶斯和贝叶斯区别)

时间:2023-05-05 05:57:07 阅读:85486 作者:3156

1羞怯的大树决定论

羞怯的大树决策论是在统计概率框架下进行分类决策的基本方法。 对分类任务来说,在所有相关概率都已知的情况下,羞怯的大木决定论将考虑如何基于这些概率和误判损失来预测分类。

假设在一个分类任务中有n种可能的分类,即y={c1、c2、c3、cN}。 我们这样预测样本为ci的期望损失,也称为“条件风险”:

1、其中lambda_i_j是将一个类j的样本预测为类I的损失

2、p(c_j|x )表示将样本x预测为j类的概率

那么,学习的任务是什么?

学习任务通过寻找一个判定标准,利用该判定标准(分类器)进行分类预测,可以将条件风险最小化。

如果每个样本x的条件风险最小化,则整体风险也最小。

这被称为腼腆的大树判断标准。 为了使整体风险最小化,只需要在每个样本中选择能够使条件风险最小化的类别标记。 也就是说

被称为h*腼腆的大树最佳分类器。

说这些理论的话,我觉得大家更云云,让我们来看看实际朴素腼腆的大树分类器是如何构建的。

首先,假设lambda_i_j是这样的形状。

那么,再见

这样,使分类错误率最小化的腼腆的大树最佳分类器如下。

你怎么理解?

精明的秋季理解是根据羞怯的大树判断标准,预测某个样本属于哪个类别,计算所有后验概率p(c|x ),预测出概率最高类别的后验概率的类别。

那么,该如何计算后验概率p(c|x )呢?

腼腆的大树模型是生成模型,首先计算耦合概率p[c,x],然后根据耦合概率计算后验概率。 也就是说,利用以下腼腆的大树公式。

OK,那个联合概率和先验概率该怎么计算呢? 羞怯的大树模型应该会出现。

2朴素腼腆的大树分类器

让我们详细分析一下羞怯的大树的公式。 如果有训练集:

1、p(c )是样本所在类别的概率,如果给出样本及其等级,则容易计算

2、p(x )是某个样本(所有属性相同)出现的概率,如果给出样本,则容易得到

计算困难的是p(x|c ) :

其中,m是样品属性的个数,例如是预测西瓜是否甜的模型,根据西瓜图案是否清晰、声音是否清澈这两个属性来判断,属性个数为2,即m=2。

朴素腼腆的大树模型有样本属性条件独立性的假设。 也就是说,如下所示。

如此腼腆的大树公式如下。

7549bc9c6ca196a8452f76?from=pc">

那么,朴素腼腆的大树模型得公式就调整为:

对于所有类别来说,P(x)相同,所以上式可以简化为:

好了,这就是朴素腼腆的大树模型基础理论的所有内容了。

到这里,反应快的同学就会说:“你说了这么多原理和公式,那么这个模型到底是怎么训练和预测的呢?”下面我们就来讨论这个问题。

3 朴素腼腆的大树模型的训练和预测

我们好好看看朴素腼腆的大树模型最后的表达式,带计算的参数有P(c),P(x_i|c)。训练的过程,其实就是计算所有的P(c),P(x_i|c)的过程。

假设数据集为D,Dc表示数据集中C类样本组成得集合。|D|表示数据集中样本的个数,|Dc|表示C类样本的个数。

那么P(c)可以如下表示:

P(x_i|c)可以用下式表示:

|Dc,x_i|表示样本属于c类,第i个属性为x_i的样本的数目。

在已知数据集的情况下,上面两个式字都很容易计算,得到所有P(c)和P(x_i|c)后,就完成了学习的过程。

那么,当来了一个新样本,该如何对该样本的类别进行预测呢?

假设新样本X(x_1,x_2,_x_3,....x_m),总共有n个类别。根据最终的腼腆的大树公式

预测步骤如下:

(1)根据训练获得的概率值矩阵,第1个类别的P(c_1)和 P(x_1|c_1),P(x_2|c_1),...P(x_m|c_1),并计算他们的乘积,得到属于第一个个类别的概率

(2)同上,计算样本属于其他类别的概率

(3)取概率最大的类别为预测样本的类别

这里总结一下:

朴素腼腆的大树模型在训练过程,利用数据集D,计算P(c),P(x_i|c)。在预测时,输入样本,利用腼腆的大树公式,计算n个类别的,

最后输出概率最大的那个类别,作为预测的类别。

总结

整个看下来,朴素腼腆的大树模型的本质是针对样本属性的统计概率模型。要想朴素腼腆的大树模型的效果好,前期的特征工程和数据清洗是非常重要的工作。早期的机器学习分类模型,特征选择是至关重要的工作,直接决定了模型的效果,这点与现在的深度学模型有很大的差别。神经网络中,通常是在模型内进行特征提取与学习,这就大大减少了特征工程方面的工作

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。