subword-nmt:用于神经机器翻译和文本生成的无监督分词

时间:2024-05-30 17:08:46
【文件属性】:

文件名称:subword-nmt:用于神经机器翻译和文本生成的无监督分词

文件大小:130KB

文件格式:ZIP

更新时间:2024-05-30 17:08:46

machine-translation segmentation neural-machine-translation nmt subword-units

子词神经机器翻译 该存储库包含预处理脚本,用于将文本分段为子词单元。 主要目的是促进带有子词单元的神经机器翻译实验的重现(请参阅下面的参考资料)。 安装 通过pip安装(来自PyPI): pip install subword-nmt 通过pip安装(来自Github): pip install https://github.com/rsennrich/subword-nmt/archive/master.zip 或者,克隆此存储库; 这些脚本可以独立执行。 使用说明 检查各个文件以获取使用说明。 要将字节对编码应用于分词,请调用以下命令: subword-nmt learn-bpe -s {num_operations} < {train_file} > {codes_file} subword-nmt apply-bpe -c {codes_file} < {test_file


【文件预览】:
subword-nmt-master
----.github()
--------workflows()
----get_vocab.py(24B)
----apply_bpe.py(24B)
----LICENSE(1KB)
----setup.py(1KB)
----README.md(6KB)
----learn_joint_bpe_and_vocab.py(40B)
----subword_nmt()
--------subword_nmt.py(4KB)
--------get_vocab.py(3KB)
--------bpe_toy.py(2KB)
--------apply_bpe.py(17KB)
--------__init__.py(0B)
--------learn_joint_bpe_and_vocab.py(7KB)
--------segment_char_ngrams.py(3KB)
--------tests()
--------learn_bpe.py(14KB)
--------chrF.py(4KB)
----.gitignore(1KB)
----learn_bpe.py(24B)
----CHANGELOG.md(2KB)

网友评论