文件名称:banglanmt:该存储库包含标题为“不再缺乏资源的论文”的代码和数据
文件大小:320KB
文件格式:ZIP
更新时间:2024-05-29 16:50:18
machine-translation neural-machine-translation parallel-corpus parallel-corpora bangla-nlp
孟加拉国 该存储库包含发表在2020年自然语言处理经验方法会议论文集(EMNLP)上的论文的代码和数据,该论文的标题为 。 2020年),2020年11月16日至11月20日。 目录 数据集 从下载数据集。 这包括: 我们原来的2.75M训练语料库( 2.75M/ ) 训练语料库( data/ ) RisingNews开发/测试集( data/ ) 预处理的sipc开发/测试集( data/ ) 孟加拉语和英语( vocab/ )的句法词汇模型 依存关系 的Python 3.7.3 PyTorch 1.2 赛顿 费斯 快速BPE 句子( Install CLI ) 音译 正则表达式 torchtext ( pip install torchtext==0.4.0 ) Sacrebleu 阿克萨拉穆卡(Aksharamukha) 分割 请参阅细分模块。 批量过滤 请