文件名称:parallel_corpora:下载预处理并行语料库的工具
文件大小:17KB
文件格式:ZIP
更新时间:2024-05-07 13:47:25
Python
过滤并行语料库的脚本 删除平行句子: 太长了; 包含太多不在拉丁文字中的控制字符或字母; 所用语言不正确(根据langid )。 该规则实施的规则主要基于。 要安装依赖项: python -m venv local ./local/bin/pip install -r requirements.txt 有关wmt15.py ,请参见wmt15.py 。
【文件预览】:
parallel_corpora-main
----script_data.py(56KB)
----filter_parallel_corpora.py(3KB)
----download_corpus.py(3KB)
----LICENSE(1KB)
----Readme.md(490B)
----requirements.txt(828B)
----wmt15.py(1KB)