cantor:Cantor提供实用程序来估计大集合的基数

时间:2024-04-26 08:35:00
【文件属性】:

文件名称:cantor:Cantor提供实用程序来估计大集合的基数

文件大小:100KB

文件格式:ZIP

更新时间:2024-04-26 08:35:00

Java

康托尔 Cantor提供实用程序来估计大集合的基数。 本文中的算法是可并行化的,为方便起见提供了Hadoop包装器类。 它采用大多数HyperLogLog ++算法如所见,不包括稀疏方案,并使用简单的线性内插,而不是k近邻。 此外,它可以使用MinHash结构来估计这些集合的相交的基数,如。 HyperLogLog和MinHash都需要一个精度参数。 基本准则如下,并且HLLCounter.MIN_P = 4 <= p <= 18 = HLLCounter.MAX_P 。 #### HyperLogLog p @ 99.7%置信度 p 相对误差 4 75% 5 65% 6 47% 7 32% 8 23% 9 16% 10 10% 11 8% 12 5% 13 4% 14 2.5% 15 2% 16 1.3% 17 1% 18


【文件预览】:
cantor-master
----.gitignore(10B)
----README.md(2KB)
----utils()
--------minhash_k.py(3KB)
--------requirements.txt(14B)
----pom.xml(3KB)
----docs()
--------index-all.html(22KB)
--------resources()
--------stylesheet.css(11KB)
--------allclasses-noframe.html(775B)
--------allclasses-frame.html(815B)
--------com()
--------overview-tree.html(4KB)
--------serialized-form.html(5KB)
--------constant-values.html(5KB)
--------package-list(18B)
--------help-doc.html(8KB)
--------deprecated-list.html(3KB)
--------index.html(3KB)
----LICENSE(1KB)
----src()
--------test()
--------main()

网友评论