信息论中的基本概念 (2)

因为我们编码的样本来自于真实的分布p,所以乘的是真实概率。在图像分类的时候, 比如softmax分类器,在训练的时候,我们已经给定图像的标签,所以这个时候每幅图 片的真实概率就是1,这个时候的损失函数就是:
\[ H(p,q) = -\sum_i\log(q_i) \]

交叉熵要大于等于真实分布的信息熵(最优编码)。

思考:

根据上面的叙述,我们了解到:信息论中,对于孤立的一个随机变量我们可以用熵来量化;对于两个随机变量有依赖关系,我们可以用互信息来量化。那么:对于两个随机变量之间相差多少?也就是说,这两个随机变量的分布函数相似吗?如果不相似,那么它们之间差可以量化吗?

7 相对熵

由交叉熵可知,用估计的概率分布所需的编码长度,比真实分布的编码长,但是 长多少呢?这个就需要另一个度量,相对熵,也称KL散度。

公式: \(D(p||q)=H(p,q)-H(p)=\sum_{i=1}^n p_i\log{\frac{p_i}{q_i}}\)

8 总结

信息熵是衡量随机变量分布的混乱程度,是随机分布各事件发生的信息量的期望值, 随机变量的取值个数越多,状态数也就越多,信息熵就越大,混乱程度就越大。当随机分布为均匀分布时,熵最大;信息熵推广到多维领域,则可得到联合信息熵H(X,Y); 条件熵表示的是在X给定条件下,Y的条件概率分布的熵对X的期望。

交叉熵可以来衡量在给定的真实分布下,使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小。

相对熵可以用来衡量两个概率分布之间的差异。
或者:

信息熵是传输一个随机变量状态值所需的比特位下界(最短平均编码长度)。

交叉熵是指用分布q来表示真实分布p的平均编码长度。

相对熵是指用分布q来表示分布p额外需要的编码长度。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpggzx.html