正在进行的大规模研究培训变压器语言模型,包括:BERT&GPT-2-Python开发

时间:2024-06-14 07:13:00
【文件属性】:

文件名称:正在进行的大规模研究培训变压器语言模型,包括:BERT&GPT-2-Python开发

文件大小:477KB

文件格式:ZIP

更新时间:2024-06-14 07:13:00

Python Natural Language Processing

正在进行中的大规模训练变形器语言模型的研究包括:BERT Megatron是由NVIDIA的Applied Deep Learning Research团队开发的大型,功能强大的变形器。 该存储库用于正在进行的大规模培训大型变压器语言模型的研究。 我们使用混合精度开发了GPT-2和BERT的高效,模型并行和多节点训练。 我们的代码库能够在512个GPU上有效地训练具有8路模型和64路数据并行性的72层,83亿参数的GPT-2语言模型。 我们维持15.1 PetaFLOPs acr


网友评论