文件名称:attacut:快速,准确的神经泰语分词器
文件大小:2.38MB
文件格式:ZIP
更新时间:2024-06-16 05:12:09
nlp cnn tokenization Python
AttaCut:用于泰语的快速且准确的单词分词器
AttaCut的外观如何?
TL; DR:关于音节和字符特征的三层膨胀CNN。 它比DeepCut(SOTA)快6倍,而其BEST上的WL-f1则低91% ,仅低2%。
安装
$ pip install attacut
备注: Windows用户需要在上面的命令之前安装PyTorch 。 请了解更多详细信息。
用法
命令行界面
$ attacut-cli -h
AttaCut: Fast and Reasonably Accurate Word Tokenizer for Thai
Usage:
attacut-cli
【文件预览】:
attacut-master
----.travis.yml(383B)
----docs()
--------figures()
--------training.rst(4KB)
--------conf.py(2KB)
--------benchmark.rst(6KB)
--------misc.rst(820B)
--------survey.rst(7KB)
--------overview.rst(2KB)
--------Makefile(634B)
--------acknowledgement.rst(1KB)
--------index.rst(3KB)
--------faqs.rst(103B)
--------_static()
----floyd_requirements.txt(102B)
----Pipfile(397B)
----.github()
--------workflows()
----tests()
--------preprocessing.py(4KB)
--------tokenizer.py(994B)
--------utils.py(693B)
--------evaluation.py(580B)
----LICENSE(1KB)
----Pipfile.lock(25KB)
----floyd.yml(30B)
----appveyor.yml(985B)
----.floydignore(314B)
----attacut()
--------models()
--------preprocessing.py(3KB)
--------tokenizer.py(2KB)
--------utils.py(3KB)
--------logger.py(301B)
--------evaluation.py(752B)
--------dataloaders.py(6KB)
--------minpythainlp.py(1KB)
--------__init__.py(120B)
--------artifacts()
--------version.py(26B)
----requirements.txt(129B)
----setup.py(1KB)
----.gitignore(1KB)
----run(40B)
----README.md(3KB)
----scripts()
--------train.py(7KB)
--------dev()
--------data-preparation()
--------floydhub()
--------attacut-cli(5KB)
----.bumpversion.cfg(361B)