基于多SimHash指纹的近似文本检测

时间:2015-11-07 04:17:23
【文件属性】:

文件名称:基于多SimHash指纹的近似文本检测

文件大小:346KB

文件格式:KDH

更新时间:2015-11-07 04:17:23

SimHash 文档排重

SimHash算法是google采用的用来进行页面排重及文本相似度计算的算法,以计算效率高,正确率高而闻名,本文详细介绍了该算法的实现


网友评论

  • 不是pdf格式的,坑啊
  • 看不太明白啊。有代码就更好了。
  • 有用,但缺乏演示
  • 已经看过,并且非常有用
  • 非常不错的理论,但是没有demo
  • 非常不错的理论,对于优化的人有帮助。
  • 如果有代码就更好了