simhash:一种有效的文本相似度计算算法

时间:2024-06-02 07:50:47
【文件属性】:

文件名称:simhash:一种有效的文本相似度计算算法

文件大小:2.05MB

文件格式:ZIP

更新时间:2024-06-02 07:50:47

Java

simhash 高效的文本相似度去重算法实现 simhash是什么 Google发明的的文本去重算法,适合于大批量文档的相似度计算 主要步骤 对文本分词,得到N维特征向量(默认为64维) 为分词设置权重(tf-idf) 为特征向量计算哈希 对所有特征向量加权,累加(目前仅进行非加权累加) 对累加结果,大于零置一,小于零置零 得到文本指纹(fingerprint)


【文件预览】:
simhash-master
----.gitignore(9B)
----src()
--------main()
--------test()
----pom.xml(1KB)
----README.md(535B)

网友评论