三【相关度相似度查询与计算】相似度到大数据查找之Mysql 文章匹配的一些思路与提高查询速度

时间：2022-10-07 19:27:46

记录下，在上2回的数据基础之上，附带一个互信息（MI，Mutual Information）可以计算词之间的相关度

标准互信息 MI(X,Y)=log2p(x,y)/p(x)p(y)  值越大于0 则趋于更相关，反之则互补。

通过查询得到词的数据，以及词组的共现数量，然后到Matlabe里计算下。

我选择了其中一个总词量为30993453的库做为源

通过查询可知以下内容，

北京（词数）=40998

喜爱（词数）=878

联合（共现数）=75

相关度计算结果

log10(30993453/40998)*log10(30993453/15118)*826/(40998+15118-826)

ans =

    0.1424



秒客网