文件名称:YouTokenToMe:无监督的文本标记器,专注于计算效率
文件大小:57KB
文件格式:ZIP
更新时间:2024-02-24 09:10:58
nlp natural-language-processing word-segmentation tokenization bpe
YouTokenToMe YouTokenToMe是专注于计算效率的无监督文本令牌生成器。 目前,它实现了快速字节对编码(BPE)[ ]。 在训练和标记化方面,我们的实现要比 , 和。 在某些测试案例中,它快90倍。 查看我们的结果。 主要优势: 多线程训练和令牌化 该算法具有O(N)复杂度,其中N是训练数据的长度 C ++中的高效实现 Python包装器和命令行界面 额外功能: BPE退出(如在) 与原始论文的算法一样,我们也没有考虑跨越单词边界的标记。 就像在,所有空格符号都由元符号“”(U + 2581)代替。 它允许将标记序列转换回文本,并恢复单词边界。 例如,短语Blazingly fast tokenization! 可以被标记为 ['▁Bl', 'az', 'ingly', '▁fast', '▁token', 'ization', '!'] 安装 pip install youtokentome Python介面 例 让我们从一个独立的例子开始。 import random import youtokentome as yttm train_data_
【文件预览】:
YouTokenToMe-master
----setup.py(2KB)
----.gitignore(1KB)
----requirements.txt(75B)
----.travis.yml(2KB)
----MANIFEST.in(310B)
----LICENSE(1KB)
----README.md(9KB)
----tests()
--------unit_tests()
--------speed_test()
----benchmark.md(4KB)
----youtokentome()
--------__init__.py(67B)
--------cpp()
--------yttm_cli.py(4KB)
--------youtokentome.py(3KB)