平均互信息与条件熵

时间:2022-01-26 01:26:48

本专栏包含信息论与编码的核心知识,按知识点组织,可作为教学或学习的参考。markdown版本已归档至【Github仓库:https://github.com/timerring/information-theory 】或者公众号【AIShareLab】回复 信息论 获取。

平均互信息

平均互信息定义

平均互信息与条件熵

  1. Y 末知, 平均互信息与条件熵 的不确定度为 平均互信息与条件熵
  2. Y 已知, 平均互信息与条件熵 的不确定度变为 平均互信息与条件熵

互信息 = 先验不确定性 - 后验不确定性 = 不确定性减少的量

通信系统中若发端的符号为 X 收端的符号为 Y。如果是 一一对应信道, 接收到 Y 后对 X 的不确定性将完全消除: H(X|Y) = 0,一般情况 H(X|Y) < H(X), 即了解 Y 后对 X 的不确定度将减少。

通过信道传输消除了一些不确定性, 获得了一定的信息, 故平均互信息与条件熵


由上,平均互信息具有互易性:

平均互信息与条件熵

例 假设一条电线上串联了 8 个灯泡 $ x_{1}, x_{2}, \ldots x_{8}$ 如图, 这 8 个灯泡损坏的概率相等 平均互信息与条件熵 , 现 假设只有一个灯泡已损坏, 致使串联灯泡都不能点亮。

未测量前, 8 个灯泡都有可能损坏, 它们损坏的先验概率: 平均互信息与条件熵 , 这时存在的不确定性

平均互信息与条件熵

测量 1 次后, 可知 4 个灯泡是好的, 另 4 个灯泡中有一个是坏的,这时后验概率 平均互信息与条件熵 ,尚存在的不确定性:

平均互信息与条件熵

所获得的信息量就是测量前后不确定性减少的量, 测量1次获得的信息量:

平均互信息与条件熵

平均互信息与各类熵的关系

平均互信息与条件熵

熵只是平均不确定性的描述,不确定性的消除两熵之差才等于接收端所获得的信息量;

获得的信息量不应该和不确定性混为一谈。

I(X;Y)表示X和Y之间的密切程度,越大,越密切。

下表有12条训练数据,记录了女性的择偶标准,每条数据包含了4个特征。这4个特征对结果的体现程度是不一样的。如何度量这种不同? 用平均互信息

平均互信息与条件熵

4 个特征和结果的概率分布分别为

平均互信息与条件熵

特征和结果之间的条件概率为 :

平均互信息与条件熵

平均互信息与条件熵

从而联合概率为 :

平均互信息与条件熵

得条件熵: 平均互信息与条件熵

平均互信息为: 平均互信息与条件熵 .

结论:身高是最主要特征, 其次是性格。只保留这两项即可。

维拉图

平均互信息与条件熵

平均互信息与条件熵

若信道是无噪一一对应信道,信道传递概率:

平均互信息与条件熵

计算得:

平均互信息与条件熵

平均互信息与条件熵

平均互信息与条件熵

若信道输入端 平均互信息与条件熵 与输出端 平均互信息与条件熵 完全统计独立

平均互信息与条件熵

则: 平均互信息与条件熵

平均互信息与条件熵

条件熵

平均互信息与条件熵: 信道疑义度,损失熵

  • 信源符号通过有噪信道传输后所引起的信息量的损失。

信源X的熵等于接收到的信息量加上损失掉的信息量。

平均互信息与条件熵: 噪声熵,散布熵

  • 它反映了信道中噪声源的不确定性。

输出端信源Y的熵 平均互信息与条件熵 等于接收到关于X的信息量 平均互信息与条件熵 加上 平均互信息与条件熵 ,这完全是由于信道中噪声引起的。

平均互信息与条件熵

平均互信息的性质

非负性: 平均互信息与条件熵

互易性: 平均互信息与条件熵

凸函数性:

  • I(X ; Y) 为概率分布 p(x) 的上凸函数
  • 对于固定的概率分布 p(x), I(X ; Y) 为条件概率 平均互信息与条件熵 的 下凸函数

极值性:平均互信息与条件熵

若信道是下图所示的无躁一一对应信道,则有

平均互信息与条件熵

平均互信息与条件熵

参考文献:

  1. Proakis, John G., et al. Communication systems engineering. Vol. 2. New Jersey: Prentice Hall, 1994.
  2. Proakis, John G., et al. SOLUTIONS MANUAL Communication Systems Engineering. Vol. 2. New Jersey: Prentice Hall, 1994.
  3. 周炯槃. 通信原理(第3版)[M\]. 北京:北京邮电大学出版社, 2008.
  4. 樊昌信, 曹丽娜. 通信原理(第7版) [M\]. 北京:国防工业出版社, 2012.