文件名称:probminhash:ProbMinHash –用于(概率)Jaccard相似度的一类局部敏感哈希算法
文件大小:5.68MB
文件格式:ZIP
更新时间:2024-02-26 18:45:57
sketch similarity minhash locality-sensitive-hashing jaccard-similarity
ProbMinHash –用于(概率)Jaccard相似度的一类局部敏感哈希算法 带有标签的修订版用于生成最终论文中提出的结果,该论文可在上获得,或在以下网站上找到arXiv-preprint: 。 除了在本文所提出的算法, 包含算法NonStreamingProbMinHash2和NonStreamingProbMinHash4 ,其非流的等价变体ProbMinHash2和ProbMinHash4 。 在第一遍中,他们计算所有权重的总和,从而确定最终止损极限的分布。 这允许预先估计适当的停止极限。 例如,如果停止极限被初始化为该分布的第90个百分位数,则即使对于停止极限本来可以无限的第一