贝叶斯与全概率区别,贝叶斯公式与条件概率区别

导读：本文从条件概率入手，介绍事件间独立性的相关概念，然后引出全概率公式和贝叶斯公式的基本内容，使读者通过概率的视角初步认知现实世界。

作者：平淡的奇异果

来源：大数据数据库(id:hzdashuju ) )。

01 从概率到条件概率

关于概率，我相信每个人都不知道。例如，在掷骰子这一最简单的概率场景中，得出的分数为5的概率是多少？我们会毫不犹豫地说出答案。概率是1/6。

这个问题太简单了，如果我们就这么满足了，研究的意义就不大了。然后，在这个问题上添加限定条件。知道扔骰子的点数是奇数，求出扔的点数成为5的概率是多少。是的，我知道了。在这个问题中，没有直接询问投5的概率，而是添加了已知分数为奇数的前提。

生活中这样的场景更多，但我们一般不会直接推断出发生一个事件的可能性。因为，那实际上没有什么意义，也不容易推测结果。一般而言事件是不会孤立发生的，都会伴随其他一些条件。例如，下雨的概率是多少？可能会有雾，在哪里？什么时候？当天的云有多厚？没有推定的前提条件，就不能得出有意义的有价值的推定结果。

因此，在实际应用中，我们关心的是在给出条件概率，也就是部分信息的基础上，估计关注事件的概率。这些给定的信息是事件的附加条件，是我们研究时需要关注的重点。

02 条件概率的具体描述

首先，让我具体说明一下条件概率。在假设知道一个事件b发生的前提下，我们想知道另一个事件a发生的可能性。此时，需要构筑有条件的概率，在考虑事件b已经发生的信息之后，求出事件a发生的概率。

该条件概率表示在发生某个事件b的情况下，事件a发生的概率，将其表示为p(a|b )。

让我们回到骰子的问题。在出现奇数分数骰子的前提下，出现分数5的概率是多少？奇数的分数共有{ 1，3，5 } 3种，其中出现5的概率为1/3。很明显，计算结果与单独询问分数5出现的概率不同。

下面我们来抽象一下条件概率的应用场景。

回到最简单易懂的经典概率模型进行分析。假设一个实验有n个可能的结果。事件a和b分别包含M1个和M2个结果，M12表示共同的结果，即a事件和b事件同时发生，即事件AB中包含的实验结果的数量。

尝试在图1-1中再次想象上述场景。

图1-1事件和事件同时发生的场景

事件a和事件b单独发生的概率分别是多少？读者一定会脱口而出M1/N和M2/N。那么，考虑一下有条件的概率吧。在事件发生的前提条件下，事件发生的概率是多少？

此时，我们考虑的范围从最初的n个所有可能的结果缩小到当前的M2个结果，也就是事件b发生的结果的范围，但是其中只有M12个结果对应于事件a的发生，条件概率p(a|b ) M12

03 条件概率的表达式分析

为了更深入地挖掘其中的含义，进一步展开条件概率的公式p(a|b )=M12/M2，将公式的上下部分同时除以所有可能的结果数。

由此，得到了p(a|b )=p ) ab )/p ) b )这一条件概率的一般定义。

04 两个事件的独立性

进一步分析以上例子，事件a的无条件概率p(a )被赋予

定事件B发生下的条件概率P(A|B)显然是不同的P(A|B)≠P(A)，即，而这也是非常普遍的一种情况，无条件概率和条件概率的概率值一般都存在差异。

其实，这种情况也反映了两个事件之间存在着一些关联，假如满足P(A|B)>P(A)，则可以说事件B的发生使得事件A发生的可能性增大了，即事件B促进了事件A的发生。

但是P(A)=P(A|B)的情况也是存在的，而且这是一种非常重要的情况，它意味着事件B的发生与否对事件A是否发生毫无影响。这时，我们就称A和B这两个事件独立，并且由条件概率的定义式进行转换可以得到：

实际上，我们使用以上表达式刻画事件独立性，比单纯使用P(A)=P(A|B)要更好一些，因为P(AB)=P(A)P(B)不受概率P(B)是否为0的因素制约。

由此可知，如果A和B这两个事件满足P(AB)=P(A)P(B)，那么称事件A和事件B独立。

05 从条件概率到全概率公式

我们假设B1,B2,B3,...,Bn为有限个或无限可数个事件，它们之间两两互斥且在每次实验中至少发生其中一个，如图1-2所示。

▲图1-2 事件两两互斥且每次实验至少发生其中一个

用表达式描述：

现在我们引入另一个事件A，如图1-3所示。

▲图1-3 在实验中引入事件A

由图1-3可知，因为Ω是一个必然事件（也就是整个事件的全集），因此有等式P(A)=P(AΩ)成立，进一步进行推导有：

P(A)=P(AΩ)=P(AB1+AB2+AB3+...+ABn)。因为事件Bi、Bj两两互斥，那么显然AB1,AB2,AB3,...,ABn也两两互斥，于是就有：

P(A)=P(AB1)+P(AB2)+P(AB3)+...+P(ABn)

再将条件概率公式P(ABi)=P(Bi)P(A|Bi)代入：

P(A)=P(B1)P(A|B1)+P(B2)P(A|B2)+...+P(Bn)P(A|Bn)

这就是我们最终得到的全概率公式，“全”字的意义在于：全部的概率P(A)被分解成了多个部分概率之和。

我们再回过头来看全概率公式的表达式，可以发现：事件A的概率P(A)应该处于最小的P(A|Bi)和最大的P(A|Bj)之间，它不是所有条件概率P(A|Bk)的算术平均，因为事件被使用的机会权重（即P(Bi)）各不相同，因此全概率P(A)就是各条件概率P(A|Bk)以P(Bk)为权重的加权平均值。

06 聚焦贝叶斯公式

了解了全概率公式之后，我们进一步处理条件概率的表达式，得到如下等式：

这就是大名鼎鼎的贝叶斯公式。

千万不要觉得它平淡无奇，只是数学公式的推导和清爽的钻石。实际上，这个公式里包含了全概率公式、条件概率、贝叶斯准则。我们来挖掘一下里面所蕴藏的重要内涵。

贝叶斯公式将条件概率P(A|B)和条件概率P(B|A)紧密地联系起来，其最根本的数学基础就是P(A|B)P(B)=P(B|A)P(A)，它们都等于P(AB)。

那这里面具体的深刻内涵是什么呢？我们接着往下看。

07 本质内涵：由因到果，由果推因

在现实中，我们可以把事件A看作结果，把事件B1,B2,...,Bn看作导致这个结果的各种原因。那么，我们所介绍的全概率公式

P(A)=P(B1)P(A|B1)+P(B2)P(A|B2)+...+P(Bn)P(A|Bn)

就是由各种原因推理出结果事件发生的概率，是由因到果。

但是，实际上还存在着一类重要的应用场景：我们在日常生活中常常是观察到某种现象，然后去反推造成这种现象的各种原因的概率。简单来说，就是由果推因。

由贝叶斯公式

最终求得的条件概率P(Bi|A)，就是在观察到结果事件A已经发生的情况下，推断结果事件A是由原因Bi造成的概率的大小，以支撑我们后续的判断。

概率P(Bi)被称为先验概率，指的是在没有别的前提信息情况下的概率值，这个值一般需要借助我们的经验去估计。而条件概率P(Bi|A)被称作后验概率，它代表了在获得“结果事件A发生”这个信息之后原因Bi出现的概率，可以说后验概率是先验概率在获取了新信息之后的一种修正。

本文从概率出发，到条件概率，再到全概率公式，最终聚焦到贝叶斯公式，主要是从概念层面进行梳理，帮助读者迅速形成以条件概率为基石的认知视角。条件概率的重要性不言而喻，它将贯穿整个概率统计课程体系。

关于作者：平淡的奇异果，人工智能技术专家，毕业于清华大学计算机系，长期从事人工智能领域相关研究工作。谙熟机器学习算法应用及其背后的数学理论基础。目前已出版多部机器学习数学基础类畅销书籍，并入选京东推荐排行榜，广受读者好评。

本文摘编自《机器学习中的概率统计 Python语言描述》。

延伸阅读《机器学习中的概率统计》

长按上方二维码了解及购买

转载请联系微信：DoctorData

推荐语：资深AI技术专家撰写，清华大学毕业，GitChat畅销专栏升级，系统讲解机器学习中概率统计核心知识和计算技巧。

更多精彩回顾

书讯 | 2月书讯 | 读新书，过新年。

资讯 | DB-Engines 2月数据库排名：三霸主集体“亮红灯”？小众数据库不可小觑

书单 | 寒假怎么过？经典计算机教材助你弯道超车

干货 | 盘点最重要的7个Python库

收藏 | 2021最新Web开发趋势

点击阅读全文购买