首页 > 编程知识 正文

信息熵常见定义形式,信息论中的熵

时间:2023-05-04 05:56:55 阅读:221986 作者:2233

信息论(Information Theory)是概率论与数理统计的一个分枝。用于信息处理、信息熵、通信系统、数据传输、率失真理论、密码学、信噪比、数据压缩和相关课题。本文主要罗列一些基于熵的概念及其意义,注意本文罗列的所有 loglog 都是以 2 为底的。

信息熵

在物理界中熵是描述事物无序性的参数,熵越大则越混乱。类似的在信息论中熵表示随机变量的不确定程度,给定随机变量 X ,其取值 x1,x2,⋯,xmx1,x2,⋯,xm ,则信息熵为:

这里有一张图,形象的描述了各种各样的熵的关系!

条件熵

设 X ,Y 为两个随机变量,X 的取值为 x1,x2,...,xmx1,x2,...,xm ,Y 的取值为 y1,y2,...yny1,y2,...yn ,则在X 已知的条件下 Y 的条件熵记做 H(Y|X) :

条件下的熵的加权,化简为联合概率和log条件概率的积和

联合熵

联合熵与条件熵的关系

联合熵满足几个性质 :

1)H(Y|X)≥max(H(X),H(Y))H(Y|X)≥max(H(X),H(Y)) ;

2)H(X,Y)≤H(X)+H(Y)H(X,Y)≤H(X)+H(Y) ;

3)H(X,Y)≥0H(X,Y)≥0.

相对熵—— KL距离

相对熵,又称为KL距离,是Kullback-Leibler散度(Kullback-Leibler Divergence)的简称。它主要用于衡量相同事件空间里的两个概率分布的差异

直观理解:P》Q,巨大正数;P《Q,不会很小,左右相互制约。

相对熵(KL-Divergence KL散度): 用来描述两个概率分布 P 和 Q 差异的一种方法,所以本身数学形式并没有什么意义。 它并不具有对称性,因此KL 散度并不满足距离的概念,且不满足三角不等式。

对于两个完全相同的分布,他们的相对熵为 0 ,D(P||Q)D(P||Q) 与函数 P 和函数 Q 之间的相似度成反比,可以通过最小化相对熵来使函数 Q 逼近函数 P ,也就是使得估计的分布函数接近真实的分布。KL 可以用来做一些距离的度量工作,比如用来度量 topic model 得到的 topic 分布的相似性.

互信息

对于随机变量 X,htdlq,Y 其互信息可表示为 MI(X,Y)MI(X,Y),即是同时满足XY条件的熵的大小

与联合熵分布的区别:

交叉熵

设随机变量 X 的真实分布为 p,用 q 分布来近似 p ,则随机变量 X 的交叉熵定义为:

形式上可以理解为使用 qq 来代替 pp 求信息熵了。交叉熵用作损失函数时,qq 即为所求的模型,可以得到其与 相对熵的关系:

可见分布 p 与 q 的交叉熵等于 p 的熵加上 p 与 q 的KL距离,所以交叉熵越小, D(P||Q)D(P||Q) 越小,即 分布 q 与 p 越接近,这也是相对熵的一个意义。

信息增益,是一种衡量样本特征重要性的方法。 特征A对训练数据集D的信息增益g(D,A) ,定义为集合D的经验熵H(D)与特征A在给定条件下D的经验条件熵H(D|A)之差,即

常见随机树,衡量碰到某条件下熵的变化情况。

信息增益与互信息类似,然后是信息增益比,顾名思义+Ratio:

 

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。