Megatron-LM:正在进行的大规模研究培训变压器语言模型,包括

时间:2024-05-02 06:11:53
【文件属性】:

文件名称:Megatron-LM:正在进行的大规模研究培训变压器语言模型,包括

文件大小:459KB

文件格式:ZIP

更新时间:2024-05-02 06:11:53

Python

威震天( 和 )是由NVIDIA应用深度学习研究团队开发的大型,强大的变压器。 该存储库用于正在进行的大规模培训大型变压器语言模型的研究。 我们使用混合精度开发了高效的,模型并行的(张量和流水线)以及和多节点预训练。 以下是我们直接使用威震天的一些项目: 我们的代码库能够通过模型和数据并行性有效地训练非常大的(数千亿个参数)语言模型。 为了演示代码如何在多个GPU和模型大小下扩展,我们考虑从10亿到1万亿个参数的GPT模型。 所有模型使用的词汇量为51,200,序列长度为2048。我们改变隐藏的大小,注意头的数量和层数,以得出特定的模型尺寸。 随着模型尺寸的增加,我们也会适度地增加批量大小。 我们利用进行缩放研究,并为最大型号使用多达3072个 GPU。 下表显示了模型配置以及已实现的FLOP(每个GPU以及在所有GPU上的汇总)。 请注意,对FLOP进行了测量以进行端到端培训,即包括所


网友评论