文件名称:pysimscale:相似度矩阵计算,支持阈值稀疏性,有效的并行化和层次结构(或商图)
文件大小:80KB
文件格式:ZIP
更新时间:2024-05-01 20:48:52
graph-algorithms similarity-matrix parallel-calculations quotient-matrix similarity-calculations
幽灵规模 支持以下方面的大规模相似度计算: 相似度矩阵的阈值和稀疏表示(使用包中的 ) 使用软件包进行并行计算。 商/层级相似度计算,用于您希望对相似度图进行分组或汇总以计算更高级别实体之间的相似度的情况。 例如,从用户评论之间的相似性得出的用户之间的相似性(更高级别的实体)。 背景 一位聪明的开发工程师曾经告诉我: 在我给您一个集群之前,请告诉我您可以充分利用一台计算机 考虑到这一点,我创建了此程序包,以分享我在大规模相似项目中的工作经验。 我遇到的主要问题之一是扩大相似度的计算和表示。 特别是如何更好地分配计算(着重于尽可能高效地使用单核,多核计算机)和有效地存储结果,尤其是在低值不是很有趣的情况下(使相似性矩阵非常稀疏) 该软件包包含用于处理上述类型问题的工具。 假设条件 数据是数字(二进制,整数或实数)。 对于分类数据,请先进行转换(嵌入,1-hot编码或其他方法)
【文件预览】:
pysimscale-master
----benchmarks()
--------benchmark_similarity.png(36KB)
--------benchmark_quotient.png(33KB)
--------benchmark_similarity.py(2KB)
--------benchmark_quotient.py(2KB)
----pysimscale()
--------similarity.py(5KB)
--------quotient.py(3KB)
--------utils.py(4KB)
--------__init__.py(109B)
--------shuffle.py(1KB)
----LICENSE(11KB)
----setup.py(1011B)
----README.md(6KB)
----tests()
--------test_shuffle.py(2KB)
--------test_quotient.py(3KB)
--------test_utils.py(3KB)
--------test_similarity.py(4KB)
----.gitignore(2KB)
----_config.yml(26B)