文件名称:高效计数器,无论数据大小如何,都使用有限(有限)内存。-Python开发
文件大小:189KB
文件格式:ZIP
更新时间:2024-06-14 10:13:47
Python Natural Language Processing
Bounter-适用于大型数据集的计数器Bounter是一个用C编写的Python库,用于仅使用很小的固定内存占用空间,就可以非常快速地概率统计大型数据集中的项目频率。 为什么Bo Bounter-大型数据集的计数器Bounter是一个用C编写的Python库,用于仅使用很小的固定内存占用空间,就可以非常快速地对大量数据集中的项目频率进行概率统计。 为什么是Bounter? Bounter可让您计算项目出现的次数,类似于Python的内置dict或Counter:from bounter import bounter count = bounter(size_mb = 1024)#最多使用1 GB的RAM计数。update([u'a' ,'few',u'words',u'a',u'few',u'times'])#计数项目频率
【文件预览】:
bounter-master
----ISSUE_TEMPLATE.md(1KB)
----.gitignore(1KB)
----README.md(9KB)
----README.rst(11KB)
----CHANGELOG.md(2KB)
----.github()
--------FUNDING.yml(723B)
----cbounter()
--------ht_common.c(30KB)
--------cms_log1024.c(2KB)
--------cms_log8.c(2KB)
--------ht_basic.c(357B)
--------ht_cmodule.c(2KB)
--------cms_cmodule.c(2KB)
--------hll.h(2KB)
--------cms_common.c(15KB)
--------hll.c(4KB)
--------murmur3.h(1KB)
--------cms_conservative.c(715B)
--------murmur3.c(8KB)
----docs()
--------bounter_unigrams_wiki.png(62KB)
--------experiments.md(6KB)
--------count_min_sketch.ipynb(11KB)
--------bounter_bigrams_wiki.png(64KB)
----LICENSE(1KB)
----CONTRIBUTING.md(225B)
----release()
--------summarize_pr.sh(843B)
--------release.sh(510B)
----requirements.txt(1B)
----MANIFEST.in(131B)
----setup.py(2KB)
----.travis.yml(155B)
----bounter()
--------bounter.py(2KB)
--------tests()
--------__init__.py(381B)
--------count_min_sketch.py(9KB)
----.appveyor.yml(2KB)