最近在看信息论中的概念,对于联合熵的概念比较混乱,从而引发出对联合概率的思考,
当提到联合概率的时候大家都会看到这么一个图:
学习概率论是这样理解还可以,还能解释条件概率,总体挺好的;
但是总感觉有点啥问题,当AB完全独立是不是这个:
这样就会随之想到的是P(AB)=0,书上又说A,B在相互独立时,P(AB)=P(A)*P(B),是不是哪个地方有问题呢?
既然出现分歧,这就从概念出发吧。
对于P(A,B)指的是在(A,B)形成的空间中的概率,Sa和Sb分别是A和B的空间,则形成总空间为Sa*Sb。
假设A和B分别是线性空间,那么(A,B)就是二维平面。
P(AB)也可以写成P(AiBj),或许这样就更好理解了。
举个例子,bbdyt所穿的袜子,每星期内都随机穿,袜子有红黄绿蓝,星期几和穿袜子的颜色也是随机对应:
星期/颜色
红
黄
绿
蓝
1
-
-
-
-
2
-
-
-
-
3
-
-
-
-
4
-
-
-
-
5
-
-
-
-
6
-
-
-
-
7
-
-
-
-
P(红2)代表星期二穿红色的概率;
当两者相互独立时,P(红2)=P(红)*P(2)=1/4*1/7=1/28;
当bbdyt在周六和周天不想穿绿色和蓝色,对于观察者进行大量实验后发现:
星期/颜色
红
黄
绿
蓝
1
-
-
-
-
2
-
-
-
-
3
-
-
-
-
4
-
-
-
-
5
-
-
-
-
6
- -
- -
7
- -
- -
此时发现P(红6)=P(红|6)*P(6),其中P(6)的空间为整个空间,而P(红|6)的空间为6的空间;
此时观察者发现P(红|6)>P(红)说明红和6有某种关系,6使得红的概率增加;
同时发现P(绿|6)=0<P(红),说明6阻断绿的发生;
总之,用标致的时光图代表概率容易让人混乱,联合时间并不是A和B同时发生的概率而是,A和B的特定组合占整个空间的概率;
所以P(AB)则衡量A和B空间联合的确定度,这样就和信息熵的概念一致了。
最后更正一下刚开始的图,相交的部分是P(A∩B),而不是P(AB):