今天给大家分享的是基于贝叶斯决策的分类的方法,这部分内容需要一些基本的概率论知识作为基础。贝叶斯决策的理论是比较简单的,但对其进一步的分析(如错误率分析,由贝叶斯理论引申出的更高级的算法) 则会难上许多,我也会尽可能将这些部分一一涉及,所以这篇文章可能会连续更新数周,请大家见谅。
相关概率知识在这里我假设大家对于基本的概率知识以及有所了解,至少该知道什么是概率 概率的一些基本性质等。这里主要介绍条件概率和它的引申公式。
条件概率A,B两个随机事件,条件概率P(A|B)是事件B发生的情况下事件A发生的概率,具体的公式是:
由这个公式又引申出三个相关的公式:概率乘法公式、全概率公式、贝叶斯公式,正是这些公式构成了贝叶斯决策的基础。我们一个一个来看。
概率乘法公式概率乘法公式由条件概率公式变化而来:
全概率公式假设事件A由两两互斥的子事件A1,A2,...,An,并且A这个整体是个完整的事件,则对于事件B就有:
贝叶斯公式进一步的,把概率乘法公式和全概率公式代入条件概率公式,就得到了贝叶斯公式:
来自经验的概率在有了以上的知识之后我们再来看看另外两个容易混淆的概念,先验概率和后验概率。 假设我们有一批样本X,要求属于wi类的概率:
先验概率P(wi) :先验概率指的是根据实际存在的资料得出的概率,它完全来自于之前知识和经验的积累,与即将要分的类无关,但可以提供相关的参考信息。
后验概率P(wi|X) :后验概率与先验概率相对应。它是通过对收到的样本的统计信息所给出的某一类出现的概率。代表着样本属于这一类的概率。简单的贝叶斯决策往往就是根据后验概率来决策的.
条件概率P(X|wi) :这里,条件概率代表已知属于wi类时样本X发生某种事件的概率。我们举例来看,假设有某一项疾病,X代表基本的阴性或者阳性,w代表待查人群(患病的和不患病的)。那么先验概率P(wi)表示这群人中患病和不患病的概率(数据来源可能是某次普查,或者是医院积累的数据),后验概率P(wi|X)可能表示测试人群中结果为阳性的人原本也是患病的概率,条件概率P(X|wi)可能代表原本患病的人检查出患病的概率。
而如何由条件概率和先验概率求出后验概率,这就是贝叶斯公式运用的问题了。
贝叶斯决策聊完了概率,其实大家对贝叶斯决策的方法可能已经有点了解了,下面我们直接给出2种最常用的决策模型。
最小错误率决策hhdzxc,这一决策规则就是将样本分到错误可能性最小的那一类去。
上一节我们提到了先验概率和后验概率,但是实际从资料收集的角度来看,先验概率和类概率密度是最容易收集到的,所以我们考虑用贝叶斯公式把后验概率用类概率密度和先验概率表示出来。
由于网上大部分例子都是2分类的模型,这里直接不加证明的给出多类情况下的分类规则:
有人可能会问条件概率怎么获得,一种办法就是查询条件概率密度曲线
最小风险决策此种决策模型与最小错误率模型最大的区别就是,有些情况下是不允许犯错的,比如医院的误诊断,保险公司的误决策等,这时候就需要对模型进行修改,一种方法就是对错误情况加上权重惩罚,常常是以 以下表格的方式表现:
我们最关注的的就是客观异常 决策正常这一项,所以权值往往会比客观正常 决策异常高,具体的比例可以根据最后的错误率来调整。
这里也是直接给出多类情况下的分类模型:
暂时就先总结到这,我会慢慢补充完整
转载于:https://my.oschina.net/u/3281376/blog/853043