Mutual Information 互信息的应用

MI使用如下公式计算某个特征项t和类别c之间的相关性。

其中，A为t和c同时出现的次数；B为t出现而c没有出现的次数；C为c出现而t没有出现的次数。N为所有文档数。如果t和c不相关，则I(t,c)值为0。如果有m个类，于是对于每个t会有m个值，取它们的平均，就可得到特征选取所需的一个线性序。大的I平均值的特征被选取的可能性大。

上面为互信息(Mutual Information,MI)在文本自动分类中的应用，体现了词和某类文本的相关性

互信息(Mutual Information,MI)应用还相当广泛，例如可以做新词发现。

新词发现的思路如下：

对训练集中的文本进行字频的统计，并且统计相邻的字之间的互信息，当互信息的值达到某一个阀值的时候，我们可以认为这两个字是一个词，三字，四字，N字的词可以在这基础上进行扩展

搜索引擎检索的结果的排序现在都是使用PageRank算法计算得到重要度而进行排序

小型的搜索引擎要搞PageRank算法这样的统计貌似并不是一件容易的事情，因此某些小型的搜索引擎会喜欢说相关度排序

相关度排序要做的事情就简单多了

就是计算检索的关键字与检索结果的相关性，而这种计算又可以转换为检索的关键字与检索结果的词的相关性计算

此时还是可以使用互信息(Mutual Information,MI)来进行计算，但是计算的数量要增加不少

主要计算的是两个词在文章中同时出现的次数，例如原子弹和核辐射同现的次数肯定比核辐射和猪肉同现的次数要高，而我们也知道原子弹和核辐射是比较相关的。

正是根据这样的思想得到了相关度排序的依据

互信息(Mutual Information,MI) 的缺点是前期预处理的计算量比较大，计算结果会形成一个 big table,当然只要适当调整阀值还是可以接受的。

在项目中完成的一个搜索引擎相关度排序就是利用互信息(Mutual Information,MI)来实现，计算得到的模型大概是 50MB, BT一点利用单例模式一次加载到内存中去，给其他应用使用，虽然资源占用比较大，但是得到的效果还是不错的

秒客网

Mutual Information 互信息的应用

相关文章