最大信息熵原理

时间:2024-02-19 07:29:01
热力学统计物理中有熵增加原理,在信息论中也有对应的关于信息熵的著名定理――最大信息熵原理。

在很多情况下,对一些随机事件,我们并不了解其概率分布,所掌握的只是与随机事件有关的一个或几个随机变量的平均值。例如,我们只知道一个班的学生考试成绩有三个分数档:80分、90分、100分,且已知平均成绩为90分。显然在这种情况下,三种分数档的概率分布并不是唯一的。因为在下列已知条件限制下

(平均成绩)
(概率归一化条件)

有无限多组解,该选哪一组解呢?即如何从这些相容的分布中挑选出“最佳的”、“最合理”的分布来呢?这个挑选标准就是最大信息熵原理。

按最大信息熵原理,我们从全部相容的分布中挑选这样的分布,它是在某些约束条件下(通常是给定的某些随机变量的平均值)使信息熵达到极大值的分布。这一原理是由杨乃斯提出的。这是因为信息熵取得极大值时对应的一组概率分布出现的概率占绝对优势。从理论上可以证明这一点。

在我们把熵看作是计量不确定程度的最合适的标尺时,我们就基本已经认可在给定约束下选择不确定程度最大的那种分布作为随机变量的分布。因为这种随机分布是最为随机的,是主观成分最少,把不确定的东西作最大估计的分布。

任何物质系统除了都受到或多或少的外部约束外,其内部总是具有一定的*度,这种*度导致系统内的各元素处于不同的状态。而状态的多样性,状态的丰富程度(混乱程度、复杂程度)的定量计量标尺就是熵,熵最大就是事物状态的丰富程度自动达到最大值。换句话说,事物总是在约束下争取(或呈现)最大的*权,我们把这看作是自然界的根本原则。

在给定的约束条件下,由最大信息熵原理求“最佳”概率分布,就是求解条件极值问题。在某些场合,常用拉格朗日乘子法来确定此分布。
一般地,拉格朗日乘子法的法则可叙述如下:欲求n元函数fx1,x2,…,xn)在m约束条件

  (6)
下的条件极值,可用常数1,依次乘f把结果加起来,得函数

    

然后列出 无约束条件时具有极值的必要条件
   (7)
n个方程(7)与m个方程(6)联立解出n+m个未知数x1,x2,…,xn , 。而其中x1x2,…,xn就是可能为极值点的坐标,称为驻点。

从信息论中发展起来的最大信息熵原理,使人们开始把统计物理看成是信息论的特例。这使我们看到熵概念的强大生命力,也看到了熵概念和熵原理的重大意义。

相关文章