文件名称:simhash-cluster:simhash 近似重复检测的集群实现
文件大小:15KB
文件格式:ZIP
更新时间:2024-07-09 15:29:40
Python
Simhash 集群 这显然是未完成的工作,我们也无意完成它。 相反,我们选择通过使用支持 simhash 语料库的真实数据库。 Simhash 接受一个整数输入向量,并产生一个代表该向量的单个整数输出,因为相似的向量产生相似的散列——它们的结果散列预计仅相差几位。 考虑到这一点,simhash 通常与文本上的滚动散列函数结合使用以生成输入向量,从而产生与该文本块相对应的散列。 通过这种方式,您可以快速识别所有被视为接近重复的文档。 您甚至可以构建表来非常快速地执行这些查询。 可悲的是,它会消耗相当数量的 RAM,尤其是当您将数亿或数十亿个哈希插入已知哈希的语料库中时。 因此,分布式形式是必要的。 这就是分布式形式。 建筑学 有一个主节点,从节点向其注册,此时它们被分配了要服务的分片,并且对该分片的所有查询都将由该节点提供服务。 主站和从站通过 zerorpc 进行通信。 适配器 适
【文件预览】:
simhash-cluster-master
----bin()
--------simhash-slave(758B)
--------simhash-master(863B)
----example-config.yaml(466B)
----test()
--------testMaster.py(2KB)
--------testRangeMap.py(2KB)
----LICENSE(1KB)
----smhcluster()
--------master.py(7KB)
--------slave.py(2KB)
--------util.py(3KB)
--------__init__.py(320B)
--------adapters()
----bench()
--------benchMaster.py(1KB)
----setup.py(1KB)
----.gitignore(43B)
----README.md(3KB)