最近提出的“文本到文本传输Transformer”(T5)利用统一的文本到文本格式和规模,在多种英语自然语言处理(NLP)任务中取得了最先进的成果。本文中,我们介绍了mT5,这是T5的多语言变体,它是在一个涵盖101种语言的新的基于Common Crawl的数据集上进行预训练的。我们详细介绍了mT5的设计和修改后的训练过程,并展示了其在多种多语言基准测试中的最先进性能。我们还描述了一种简单的技术,用于防止在零样本设置中的“意外翻译”,即生成模型选择将其预测(部分)翻译成错误的语言。本工作中使用的所有代码和模型检查点均已公开。1