BoomFilters:用于处理连续*流的概率数据结构

时间:2024-02-23 10:56:52
【文件属性】:

文件名称:BoomFilters:用于处理连续*流的概率数据结构

文件大小:56KB

文件格式:ZIP

更新时间:2024-02-23 10:56:52

go filter data-stream bloom-filter count-min-sketch

动臂过滤器 动臂过滤器是用于 概率数据结构。 这包括稳定的Bloom过滤器,可伸缩的Bloom过滤器, Counting Bloom过滤器, Inverse Bloom过滤器, Cuckoo过滤器,传统Bloom过滤器的几种变体, HyperLogLog , Count-Min Sketch和MinHash 。 经典布隆过滤器通常需要先验数据集才能分配适当大小的位阵列。 这对于脱机处理非常有效,但是联机处理通常涉及无限制的数据流。 有了足够的数据,传统的Bloom过滤器会“填充”,之后它的假阳性概率为1。 动臂过滤器在事先不知道数据集大小的情况下很有用。 例如,稳定布隆过滤器可用于从无限制事件流中对事件进行重复数据删除,并在误报和最小误报上指定上限。 另外,反向布隆过滤器非常适合对重复事件相对靠近的流进行重复数据删除。 这样就不会产生误报,并且根据重复项之间的距离,也会产生误报的可能性很小。 可伸缩Bloom过滤器在误报上设置了严格的上限,同时避免了误报,但需要按与数据集大小成比例的方式分配内存。 布隆过滤器和布谷鸟过滤器计数对于需要在集合中添加元素或从集合中删除元素的情况很有用


【文件预览】:
BoomFilters-master
----.travis.yml(161B)
----hyperloglog_test.go(6KB)
----stable.go(10KB)
----boom.go(3KB)
----buckets.go(5KB)
----counting_test.go(4KB)
----cuckoo_test.go(4KB)
----deletable_test.go(4KB)
----counting.go(5KB)
----topk_test.go(2KB)
----scalable.go(8KB)
----buckets_test.go(3KB)
----cuckoo.go(7KB)
----inverse.go(8KB)
----topk.go(3KB)
----LICENSE(11KB)
----hyperloglog.go(7KB)
----classic.go(5KB)
----inverse_test.go(5KB)
----stable_test.go(6KB)
----countmin.go(7KB)
----deletable.go(5KB)
----minhash_test.go(801B)
----.gitignore(266B)
----minhash.go(2KB)
----partitioned.go(7KB)
----countmin_test.go(6KB)
----partitioned_test.go(5KB)
----README.md(18KB)
----classic_test.go(4KB)
----scalable_test.go(5KB)

网友评论