去重算法Similarity

时间:2016-08-01 11:14:01
【文件属性】:

文件名称:去重算法Similarity

文件大小:15KB

文件格式:RAR

更新时间:2016-08-01 11:14:01

shingling minhash simhash 汉明距离

实现了SimHash算法、MinHash算法、Shingling算法、汉明距离、Jaccard Index。供初学者参考


【文件预览】:
SimilarityAlgorithms
----.project(396B)
----src()
--------sim()
--------todo.txt(72B)
----.settings()
--------org.eclipse.jdt.core.prefs(629B)
----.classpath(301B)
----bin()
--------sim()
--------todo.txt(72B)

网友评论

  • 算法比较全,但是实现比较简单
  • 很好,解决了问题
  • 还是很不错的,可以好好看看学习一下~~
  • 算法比较全,相似有对比,不错的学习资料、
  • 程序没问题,不过实现太基础,shingling只是取词比较没有生成摘要指纹,不适合用于实际项目参考
  • 非常全面,有参考价值,值得研究,我可以借助他们用C实现
  • 算法比较全,有何多计算similarity的算法,不错的资源。
  • java写的,需要C++,自己琢磨改写吧,谢谢作者
  • 算法比较全,有何多计算similarity的算法,不错的资源。
  • 算法比较全,测试例子还得琢磨一下才能明白
  • 不错够完整...
  • 算法比较全,测试例子还得琢磨一下才能明白!
  • 算法的代码比较全,可以参考
  • 有参考价值,用java实现这些 算法,确实不容易 ,虽然我想用C++实现这些算法。
  • 算法比较全,测试例子还得琢磨一下才能明白!