pmb-tokenization-models:在并行含义库上训练的令牌化模型

时间:2024-04-23 16:29:55
【文件属性】:

文件名称:pmb-tokenization-models:在并行含义库上训练的令牌化模型

文件大小:2KB

文件格式:ZIP

更新时间:2024-04-23 16:29:55

pmb令牌化模型 用于为(PMB)创建标记化(和句子分段)模型的脚本。 使用标记器。 当前创建一个基于英语黄金数据训练的模型。 即将推出:其他语言,有关白银数据的培训。 用法 确保存在子模块: git submodule update --init --recursive 编译Elephant及其依赖项: cd elephant make cd .. PMB 3.0.0,然后将pmb-3.0.0目录解压缩(或符号链接)到该存储库根目录中。 (可选)(但强烈建议)切换到专用的Python 3虚拟环境。 然后安装依赖项: pip3 install -r requirements.txt 运行训练代码: produce 这将创建目录out/en.train.gold.model ,其中包含在英国黄金数据上训练过的Elephant的模型。


【文件预览】:
pmb-tokenization-models-main
----.gitmodules(99B)
----elephant()
----requirements.txt(15B)
----README.md(970B)
----produce.ini(986B)
----.gitignore(16B)

网友评论