文件名称:mltk:mltk - Moz 语言工具包
文件大小:2.26MB
文件格式:ZIP
更新时间:2024-07-10 15:23:49
Python
毫升 mltk - Moz 语言工具包。 像nltk但速度更快。 mltk总体设计目标是“足够好”的快速组件,这与大多数以速度换取准确性的 NLP 库不同。 在这种情况下,“足够好”通常是标准基准测试的准确度或 F 分数与已发布的最先进结果相比降低 0.5 - 1%,以获得一个数量级或更多的吞吐量。 注意:目前正在开发中,期待未记录的 API 更改,直到事情稳定下来。 POS 标记器 有词性标注器的 C++ 实现。 它实现了 NLTK POS 标记器接口( tag和tag_sents方法),将 POS 标记分配给单词和句子标记化文本。 示例用法,使用 NLTK 进行标记化: from nltk import word_tokenize , sent_tokenize from mltk . aptagger import FastPerceptronTagger tagger =
【文件预览】:
mltk-master
----.gitignore(221B)
----README.md(3KB)
----test()
--------test_np_chunker.py(5KB)
--------test_aptagger.py(6KB)
----requirements.txt(27B)
----ext()
--------murmur3.h(792B)
--------murmur3.c(7KB)
----setup.py(711B)
----.travis.yml(191B)
----mltk()
--------aptagger.pyx(4KB)
--------_ctagger.cc(8KB)
--------aptagger.pxd(967B)
--------_utils.cc(5KB)
--------_np_chunker.cc(10KB)
--------np_chunker.pxd(1KB)
--------models()
--------__init__.py(0B)
--------np_chunker.pyx(3KB)
----bench.py(5KB)
----Makefile(646B)