文件名称:tokenizer:印度尼西亚语的分词器
文件大小:22KB
文件格式:ZIP
更新时间:2024-07-19 14:52:32
PHP
文学分词器 Sastrawi Tokenizer 是一个用于印尼语标记化的 PHP 库。 代币化 Saya sedang belajar NLP Bahasa Indonesia. 上面的文本可以被标记为: [ " Saya " , " sedang " , " belajar " , " NLP " , " Bahasa " , " Indonesia " , " . " ] 文学分词器 用于印度尼西亚语标记化的PHP 库。 易于与其他框架/包集成。 它有一个简单易用的API 。 演示 如何安装 Sastrawi Tokenizer 可以与一起安装。 打开终端(命令行)并导航到您的项目目录。 以便composer.phar文件位于该目录中。 将 Literary Sentence Detector 添加到您的composer.json文件中: php composer.p
【文件预览】:
tokenizer-master
----composer.json(1KB)
----.travis.yml(480B)
----features()
--------bootstrap()
--------entity_tokenization.feature(1KB)
--------simple_tokenization.feature(978B)
--------punctuation_tokenization.feature(2KB)
----bin()
--------sastrawi-tokenize(693B)
----build.xml(2KB)
----tests()
--------Bootstrap.php(1KB)
--------SastrawiTest()
----LICENSE(1KB)
----CONTRIBUTING.md(721B)
----src()
--------Sastrawi()
----.gitignore(89B)
----CHANGELOG.md(548B)
----phpunit.xml.dist(767B)
----README.md(3KB)