三【相关度 相似度查询与计算】相似度到大数据查找之Mysql 文章匹配的一些思路与提高查询速度

时间:2022-10-07 19:27:46

记录下,在上2回的数据基础之上,附带一个互信息(MI,Mutual Information)可以计算词之间的相关度

标准互信息 MI(X,Y)=log2p(x,y)/p(x)p(y)  值越大于0 则趋于更相关,反之则互补。

通过查询得到词的数据,以及词组的共现数量,然后到Matlabe里计算下。

我选择了其中一个总词量为30993453的库做为源

通过查询可知以下内容,

北京(词数)=40998

喜爱(词数)=878

联合(共现数)=75

相关度计算结果

log10(30993453/40998)*log10(30993453/878)*75/(40998+878-75)

ans =

    0.0235

广告(词数)=15118

联合(共现数)=826

相关度计算结果

log10(30993453/40998)*log10(30993453/15118)*826/(40998+15118-826)

ans =

    0.1424