JapaneseTokenizers:旨在尽可能轻松地使用JapaneseTokenizer

时间:2024-02-24 12:24:19
【文件属性】:

文件名称:JapaneseTokenizers:旨在尽可能轻松地使用JapaneseTokenizer

文件大小:56KB

文件格式:ZIP

更新时间:2024-02-24 12:24:19

nlp tokenizer japanese-language mecab juman

这是什么? 这是日语令牌生成器(AKA令牌生成器)的简单python包装器 该项目旨在调用令牌生成器,并将句子尽可能容易地拆分为令牌。 并且,该项目支持各种Tokenization工具的通用接口。 因此,比较各种标记器的输出很容易。 也有此项目。 如果发现任何错误,请向github问题报告。 或任何拉请求是欢迎的! 要求 Python 2.7 Python 3.x 在3.5、3.6、3.7中签入 产品特点 各种令牌生成器之间的简单/通用接口 简单/通用接口,用于使用停用词或词性条件进行过滤 添加用户词典的简单界面(仅限Mecab) 支持的分词器 麦卡布 是适用于各种语言的开源令牌生成


【文件预览】:
JapaneseTokenizers-master
----MANIFEST.in(136B)
----LICENSE.txt(1KB)
----travis-mecab-install.sh(971B)
----examples()
--------examples.py(7KB)
--------userdict.csv(70B)
--------userdict.dict(4KB)
----.travis.yml(1KB)
----test()
--------test_filter_python2.py(2KB)
--------common()
--------requirements_py3.txt(85B)
--------test_filter_python3.py(2KB)
--------Dockerfile-dev(5KB)
--------test_jumanpp_wrapper_python2.py(5KB)
--------Dockerfile(4KB)
--------test_juman_wrapper_python2.py(7KB)
--------__init__.py(26B)
--------test_kytea_wrapper_python2.py(4KB)
--------requirements_py2.txt(98B)
--------test_jumanpp_wrapper_python3.py(5KB)
--------test_all.py(2KB)
--------test_mecab_wrapper_python2.py(3KB)
--------test_juman_wrapper_python3.py(8KB)
--------resources()
--------docker-compose.yml(501B)
--------docker-compose-dev.yml(577B)
--------test_mecab_wrapper_python3.py(4KB)
--------test_kytea_wrapper_python3.py(3KB)
----setup.py(3KB)
----README.md(6KB)
----Makefile(409B)
----install_tokenizers.sh(3KB)
----JapaneseTokenizer()
--------common()
--------kytea_wrapper()
--------datamodels.py(11KB)
--------__init__.py(347B)
--------jumanpp_wrapper()
--------mecab_wrapper()
--------init_logger.py(666B)
--------object_models.py(571B)
--------juman_wrapper()
----.gitignore(166B)

网友评论