文件名称:ahocorapy:纯Python Aho-Corasick库
文件大小:363KB
文件格式:ZIP
更新时间:2024-02-22 02:50:52
algorithm graph python-library pypi lookup
ahocorapy-在纯Python中快速进行多关键字搜索 ahocorapy是Aho-Corasick算法的纯python实现。 给定关键字列表,可以检查线性时间内给定文本中是否至少存在一个关键字。 比较: 为什么还要使用另一种Aho-Corasick实现? 我们从2016年初开始研究此问题。我们的要求包括结合python2.7的unicode支持。 对于基于C扩展的库(例如 ),这是不可能的。 由于内存爆炸,纯python库非常慢或无法使用。 从那时起,又发布了另一个纯python库 。 该存储库还包含有关不同实现的一些讨论。 还有一个 ,但是它包含注释(“当前构造算法不适用于非常大的关键字集”),这是我上次测试的真实情况,因为RAM很快用完了。 差异性 与相比,我们的库像一样在python 2.7中支持unicode。 我们不使用任何C-Extension,因此该库不依赖平台。 在标准的Aho-Corasick最长后缀搜索的基础上,我们最后还执行了一个快捷方式例程,这样我们的查找速度很快,而设置花费的时间更长。 在设置过程中,我们遍历状态并直接添加由最长后缀或最长后缀“提供”
【文件预览】:
ahocorapy-master
----.gitignore(140B)
----setup.cfg(62B)
----README.md(7KB)
----.github()
--------workflows()
----.gitlab-ci.yml(728B)
----tests()
--------visualizer_test.py(663B)
--------ahocorapy_test.py(9KB)
--------ahocorapy_performance_test.py(3KB)
--------ahocorapy_pickle_performance_test.py(740B)
--------data()
----LICENSE(1KB)
----src()
--------ahocorapy()
--------ahocorapy_visualizer()
----img()
--------.gitignore(8B)
--------readme_example.png(132KB)
----MANIFEST.in(28B)
----setup.py(2KB)
----tox.ini(495B)
----VERSION(6B)
----CHANGELOG(1KB)
----release.sh(87B)