pyspark-lsh:PySpark 中的局部敏感哈希

时间:2024-07-09 15:32:03
【文件属性】:

文件名称:pyspark-lsh:PySpark 中的局部敏感哈希

文件大小:6KB

文件格式:ZIP

更新时间:2024-07-09 15:32:03

Python

Spark-LSH 局部敏感哈希。 主要是的 PySpark 端口。 先决条件 火花 1.2+ Python 2.7+ SciPy 0.15+ NumPy 1.9+ 实施细则 该项目遵循 spark-hash Scala LSH 实现的主要工作流程。 它的核心lsh.py模块接受 RDD 支持的密集 NumPy 数组或 PySpark SparseVectors 列表,并生成一个模型,该模型只是对生成的所有中间 RDD 的包装。 下面将详细介绍每个步骤。 重要的是要注意,虽然这个管道将接受密集或稀疏向量,但来自的原始哈希函数几乎肯定会因密集向量而失败,导致所有向量都被散列到所有波段中。 目前正在开展工作以实现更均匀地分割密集向量的替代哈希函数。 对于稀疏情况,结果与的结果重复。 用法 用法遵循 spark-hash 项目的用法。 参数保持不变。 参数 命令行参数: --bins


【文件预览】:
pyspark-lsh-master
----__init__.py(0B)
----LICENSE(553B)
----README.md(4KB)
----lsh.py(3KB)
----hasher.py(1KB)
----driver.py(2KB)

网友评论