文件名称:威震天3d
文件大小:182KB
文件格式:ZIP
更新时间:2024-03-01 06:16:12
Python
是由NVIDIA应用深度学习研究团队开发的大型强大变压器。 该存储库用于正在进行的大规模培训大型变压器语言模型的研究。 我们使用混合精度开发了和高效,模型并行和多节点训练。 使用我们的GPT-2模型,我们在WikiText-103数据集上实现了10.8的困惑度(从15.8改进了SOTA),在LAMBADA数据集上实现了66.5%的准确性。 对于BERT训练,我们交换了层归一化的位置和模型体系结构(类似于GPT-2体系结构)中的剩余连接的位置,这使模型在按比例放大时得以继续改进。 我们的BERT模型具有39亿个参数,损耗为1.16,SQuAD 2.0 F1分数为91.7,RACE精度为90.9%。 我们的代码库能够通过模型和数据并行性有效地训练非常大的(数十亿个参数)语言模型。 为了演示代码如何在多个GPU上扩展,我们考虑以下GPT-2模型尺寸。 所有模型使用的词汇量为51,200,序列
【文件预览】:
megatron-3d-main
----Dockerfile(939B)
----.gitignore(2KB)
----prepare_data.py(99B)
----tasks()
--------eval_utils.py(5KB)
--------finetune_utils.py(10KB)
--------zeroshot_gpt2()
--------main.py(3KB)
--------data_utils.py(3KB)
----README.md(30KB)
----pretrain_gpt2.py(5KB)
----megatron()
--------fused_kernels()
--------global_vars.py(7KB)
--------learning_rates.py(5KB)
--------initialize.py(8KB)
--------module.py(1KB)
--------model()
--------utils.py(6KB)
--------fp16()
--------__init__.py(1KB)
--------mpu()
--------text_generation_utils.py(16KB)
--------memory.py(5KB)
--------training.py(26KB)
--------arguments.py(26KB)
--------data()
--------tokenizer()
--------checkpointing.py(12KB)
----examples()
--------ds_pretrain_gpt2_pipe.sh(3KB)
--------evaluate_zeroshot_gpt2.sh(1KB)
--------pretrain_gpt2_distributed.sh(1KB)
--------ds_config.json(472B)
--------generate_text.sh(686B)
--------ds_config_flops_profile.json(606B)
--------ds_pretrain_gpt2.sh(3KB)
--------ds_zero_stage_2_config.json(677B)
--------pretrain_gpt2.sh(1014B)
--------ds_pretrain_gpt2_pipe_flops_profile.sh(3KB)
----LICENSE(14KB)
----stella_setup.sh(984B)
----CODEOWNERS(24B)
----requirements.txt(176B)
----kubernetes()
--------sshd-service.yaml(504B)
--------sshd-deployment.yaml(4KB)
--------deploy_sshd_service.sh(367B)
--------sshd-data-pvc.yaml(384B)
--------get_wandb_api_key.py(535B)
--------k8s_spec.yml(2KB)
--------deploy_k8s.sh(3KB)
--------kill_k8s.sh(167B)
--------sshd-root-pvc.yaml(524B)
----MANIFEST.in(65B)
----tools()
--------generate_samples_gpt2.py(4KB)
--------preprocess_data.py(7KB)
--------merge_mp_partitions.py(10KB)
--------corpora.py(5KB)
----.DS_Store(6KB)