文件名称:simhash:simhash algoritim的实现
文件大小:14KB
文件格式:ZIP
更新时间:2024-05-24 01:45:18
Go
辛哈什 simhash是Charikar的算法的实现。 simhash是具有有用属性的散列,相似的文档会产生相似的散列。 因此,如果两个文档相似,则文档的相似度之间的汉明距离将很小。 该软件包当前仅实现simhash算法。 将来的工作将使用此软件包来快速识别大量文档中几乎重复的文档。 安装 go get github.com/mfonda/simhash 用法 首先,使用simhash需要将文档标记为一组功能(通过FeatureSet接口完成)。 该程序包提供了一个实现WordFeatureSet ,该实现将将文档标记化为单个单词的功能被打破。 这里可能会有更好的结果,未来的工作将朝着这个方向发展。 用法示例: package main import ( "fmt" "github.com/mfonda/simhash" ) func main () { var docs =
【文件预览】:
simhash-master
----simhash.go(6KB)
----feature_test.go(3KB)
----simhash_test.go(2KB)
----LICENSE(1KB)
----compare_test.go(641B)
----README.md(2KB)
----vector_test.go(1KB)
----bench_test.go(21KB)
----fingerprint_test.go(682B)