文件名称:simhash算法的java实现simhash-java.zip
文件大小:1.55MB
文件格式:ZIP
更新时间:2022-08-07 21:14:56
开源项目
simhash 算法的 java 实现。特点计算字符串的 simhash通过构建智能索引来计算所有字符串之间的相似性,因此可以处理大数据使用使用输入文件和输出文件运行 Maininputfile 的格式(参见 src / test_in):一个文件每行用 utf8 字符集outputfile 格式 start //start flag first line // doc sencode lien // doc1\tdist the dist is the hamming distance between doc and doc1 end //end flag 标签:simhash
【文件预览】:
simhash-java-master
----src()
--------simhash()
--------test_in(326B)
--------test_out(355B)
----lib()
--------guava-12.0.1.jar(1.71MB)
----LICENSE(1KB)
----README.md(857B)
----.gitignore(143B)
----bin()
--------simhash()
--------test_in(326B)
--------test_out(355B)