信息熵常见定义形式,信息论中的熵

信息论（Information Theory）是概率论与数理统计的一个分枝。用于信息处理、信息熵、通信系统、数据传输、率失真理论、密码学、信噪比、数据压缩和相关课题。本文主要罗列一些基于熵的概念及其意义，注意本文罗列的所有 loglog 都是以 2 为底的。

信息熵

在物理界中熵是描述事物无序性的参数，熵越大则越混乱。类似的在信息论中熵表示随机变量的不确定程度，给定随机变量 X ，其取值 x1,x2,⋯,xmx1,x2,⋯,xm ，则信息熵为:

这里有一张图，形象的描述了各种各样的熵的关系！

条件熵

设 X ,Y 为两个随机变量，X 的取值为 x1,x2,...,xmx1,x2,...,xm ,Y 的取值为 y1,y2,...yny1,y2,...yn ，则在X 已知的条件下 Y 的条件熵记做 H(Y|X) :

条件下的熵的加权，化简为联合概率和log条件概率的积和

联合熵

联合熵与条件熵的关系：

联合熵满足几个性质：

1）H(Y|X)≥max(H(X),H(Y))H(Y|X)≥max(H(X),H(Y)) ;

2）H(X,Y)≤H(X)+H(Y)H(X,Y)≤H(X)+H(Y) ;

3）H(X,Y)≥0H(X,Y)≥0.

相对熵—— KL距离

相对熵，又称为KL距离，是Kullback-Leibler散度（Kullback-Leibler Divergence）的简称。它主要用于衡量相同事件空间里的两个概率分布的差异

直观理解：P》Q,巨大正数；P《Q,不会很小，左右相互制约。

相对熵（KL-Divergence KL散度）: 用来描述两个概率分布 P 和 Q 差异的一种方法，所以本身数学形式并没有什么意义。它并不具有对称性，因此KL 散度并不满足距离的概念，且不满足三角不等式。

对于两个完全相同的分布，他们的相对熵为 0 ，D(P||Q)D(P||Q) 与函数 P 和函数 Q 之间的相似度成反比，可以通过最小化相对熵来使函数 Q 逼近函数 P ，也就是使得估计的分布函数接近真实的分布。KL 可以用来做一些距离的度量工作，比如用来度量 topic model 得到的 topic 分布的相似性.

互信息

对于随机变量 X,htdlq,Y 其互信息可表示为 MI(X,Y)MI(X,Y)，即是同时满足XY条件的熵的大小

与联合熵分布的区别：

交叉熵

设随机变量 X 的真实分布为 p，用 q 分布来近似 p ，则随机变量 X 的交叉熵定义为：

形式上可以理解为使用 qq 来代替 pp 求信息熵了。交叉熵用作损失函数时，qq 即为所求的模型,可以得到其与相对熵的关系：

可见分布 p 与 q 的交叉熵等于 p 的熵加上 p 与 q 的KL距离，所以交叉熵越小， D(P||Q)D(P||Q) 越小，即分布 q 与 p 越接近，这也是相对熵的一个意义。

信息增益，是一种衡量样本特征重要性的方法。特征A对训练数据集D的信息增益g(D,A) ，定义为集合D的经验熵H(D)与特征A在给定条件下D的经验条件熵H(D|A)之差，即

常见随机树，衡量碰到某条件下熵的变化情况。

信息增益与互信息类似，然后是信息增益比，顾名思义+Ratio：