文件名称:wmt2021:WMT 2021的存储库
文件大小:306KB
文件格式:ZIP
更新时间:2024-03-13 06:48:00
Shell
wmt2021 WMT 2021的存储库 获取数据 ./scripts/get_data.sh -c paracrawl ./scripts/get_data.sh -c reuters 创建小型语料库 ./scripts/preprocess_small_sample.sh 解压缩数据并拆分以进行训练,开发和测试 ./scripts/preprocess_data.sh 脚本运行完成后,您将获得以下句子计数:JA PARACRAWL TRAIN句子的总数为1292000 EN PARACRAWL TRAIN句子的总数为1292000 JA PARACRAWL DEV句子的总数为5000 EN PARACRAWL DEV句子的总数为5000总数JA PARACRAWL TEST句子的总数是2373 EN PARACRAWL TEST句子的总数是2373 处理Paracrawl数据
【文件预览】:
wmt2021-main
----initial_reports()
--------Project_Proposal_shinkam2.pdf(151KB)
--------report_gianghl2.pdf(142KB)
----scripts()
--------parallel_processing.sh(2KB)
--------process_ja.sh(2KB)
--------process_en.sh(2KB)
--------add_voice.py(4KB)
--------build_vocab.sh(2KB)
--------get_data.sh(4KB)
--------data_transfer.sh(2KB)
--------copy_en.sh(944B)
--------preprocess_small_sample.sh(2KB)
--------preprocess_data.sh(6KB)
--------ja_script_conversion.py(2KB)
--------prepare_reuters_sents.py(1KB)
--------tokenize_japanese.py(2KB)
--------translate.sh(344B)
--------prepare_paracrawl_sents.py(2KB)
--------ja_reordering.py(1KB)
--------evaluate.sh(348B)
--------install_libraries.sh(3KB)
--------train_models.sh(476B)
----LICENSE(1KB)
----README.md(682B)
----.gitignore(2KB)