最大熵模型与分类器
==最大熵原理==
在熵最大化的情况下,概率分布最均匀,所有的不确定部分是“等可能的”。
条件熵用的是条件熵最大的意义(这一点可以看到跟极大似然估计很像),最大熵模型在做分类的时候其实也是判断P(y|x)概率的大小的,从而决定归类。但是这里的P(y|x)不是跟朴素贝叶斯一样从样本数据中获得先验概率然后计算,而是通过条件熵最大而求得。
==最大熵模型==
例子:一个骰子有6面,问,人掷每面的概率是多少,每个人一定会说每面都是1/6,为什么每个人都会说是1/6,而不是说什么1是1/3,2是1/2这样子的组合呢?因为每个人潜意识里面觉得这样子最“保险”,那么“最保险”到底代表着什么意思呢?因为均匀分布刚好是熵最大的模型,而最大熵模型认为,对于那些不知道的事件,认为他们是等可能的是最好的,也满足最大熵的情况。
最大熵模型可以将各种信息整合到一个统一的模型中,它有很多良好的特性:从形式上看,他非常简单,优美;从效果上看,它是唯一一种既能满足各个信息源的限制条件,又能保证平滑性的模型。但是,最大熵模型计算量巨大,在工程上实现方法的好坏决定了模型的实用与否。