1羞怯的大树决定论
羞怯的大树决策论是在统计概率框架下进行分类决策的基本方法。 对分类任务来说,在所有相关概率都已知的情况下,羞怯的大木决定论将考虑如何基于这些概率和误判损失来预测分类。
假设在一个分类任务中有n种可能的分类,即y={c1、c2、c3、cN}。 我们这样预测样本为ci的期望损失,也称为“条件风险”:
1、其中lambda_i_j是将一个类j的样本预测为类I的损失
2、p(c_j|x )表示将样本x预测为j类的概率
那么,学习的任务是什么?
学习任务通过寻找一个判定标准,利用该判定标准(分类器)进行分类预测,可以将条件风险最小化。
如果每个样本x的条件风险最小化,则整体风险也最小。
这被称为腼腆的大树判断标准。 为了使整体风险最小化,只需要在每个样本中选择能够使条件风险最小化的类别标记。 也就是说
被称为h*腼腆的大树最佳分类器。
说这些理论的话,我觉得大家更云云,让我们来看看实际朴素腼腆的大树分类器是如何构建的。
首先,假设lambda_i_j是这样的形状。
那么,再见
这样,使分类错误率最小化的腼腆的大树最佳分类器如下。
你怎么理解?
精明的秋季理解是根据羞怯的大树判断标准,预测某个样本属于哪个类别,计算所有后验概率p(c|x ),预测出概率最高类别的后验概率的类别。
那么,该如何计算后验概率p(c|x )呢?
腼腆的大树模型是生成模型,首先计算耦合概率p[c,x],然后根据耦合概率计算后验概率。 也就是说,利用以下腼腆的大树公式。
OK,那个联合概率和先验概率该怎么计算呢? 羞怯的大树模型应该会出现。
2朴素腼腆的大树分类器
让我们详细分析一下羞怯的大树的公式。 如果有训练集:
1、p(c )是样本所在类别的概率,如果给出样本及其等级,则容易计算
2、p(x )是某个样本(所有属性相同)出现的概率,如果给出样本,则容易得到
计算困难的是p(x|c ) :
其中,m是样品属性的个数,例如是预测西瓜是否甜的模型,根据西瓜图案是否清晰、声音是否清澈这两个属性来判断,属性个数为2,即m=2。
朴素腼腆的大树模型有样本属性条件独立性的假设。 也就是说,如下所示。
如此腼腆的大树公式如下。
7549bc9c6ca196a8452f76?from=pc">那么,朴素腼腆的大树模型得公式就调整为:
对于所有类别来说,P(x)相同,所以上式可以简化为:
好了,这就是朴素腼腆的大树模型基础理论的所有内容了。
到这里,反应快的同学就会说:“你说了这么多原理和公式,那么这个模型到底是怎么训练和预测的呢?”下面我们就来讨论这个问题。
3 朴素腼腆的大树模型的训练和预测
我们好好看看朴素腼腆的大树模型最后的表达式,带计算的参数有P(c),P(x_i|c)。训练的过程,其实就是计算所有的P(c),P(x_i|c)的过程。
假设数据集为D,Dc表示数据集中C类样本组成得集合。|D|表示数据集中样本的个数,|Dc|表示C类样本的个数。
那么P(c)可以如下表示:
P(x_i|c)可以用下式表示:
|Dc,x_i|表示样本属于c类,第i个属性为x_i的样本的数目。
在已知数据集的情况下,上面两个式字都很容易计算,得到所有P(c)和P(x_i|c)后,就完成了学习的过程。
那么,当来了一个新样本,该如何对该样本的类别进行预测呢?
假设新样本X(x_1,x_2,_x_3,....x_m),总共有n个类别。根据最终的腼腆的大树公式
预测步骤如下:
(1)根据训练获得的概率值矩阵,第1个类别的P(c_1)和 P(x_1|c_1),P(x_2|c_1),...P(x_m|c_1),并计算他们的乘积,得到属于第一个个类别的概率
(2)同上,计算样本属于其他类别的概率
(3)取概率最大的类别为预测样本的类别
这里总结一下:
朴素腼腆的大树模型在训练过程,利用数据集D,计算P(c),P(x_i|c)。在预测时,输入样本,利用腼腆的大树公式,计算n个类别的,
最后输出概率最大的那个类别,作为预测的类别。
总结
整个看下来,朴素腼腆的大树模型的本质是针对样本属性的统计概率模型。要想朴素腼腆的大树模型的效果好,前期的特征工程和数据清洗是非常重要的工作。早期的机器学习分类模型,特征选择是至关重要的工作,直接决定了模型的效果,这点与现在的深度学模型有很大的差别。神经网络中,通常是在模型内进行特征提取与学习,这就大大减少了特征工程方面的工作