文件名称:SimHash-java实现及海明距离
文件大小:1.97MB
文件格式:ZIP
更新时间:2021-11-07 13:57:58
文本重复 分词 Simhash 海明距离 文本相似度
计算两个文本的相似度,使用到了Simhash、分词、海明距离等技术
【文件预览】:
src
----com()
--------fh()
lib
----commons-lang3-3.8.jar(490KB)
----hanlp-1.5.2-sources.jar(564KB)
----hanlp.properties(2KB)
----hanlp-1.3.2.jar(763KB)
----jsoup-1.11.2.jar(383KB)