大语言模型学习笔记-1-1. GPT发展历程

时间：2024-06-14 10:48:52

GPT-1:通用文本训练+特定任务微调
GPT-2/GPT-3:扩大与训练数据和模型参数规模，显著提升模型性能，并确立了基于自然语言形式的通用任务解决路径。
GPT-3.5:在GPT-3的基础上，通过代码训练、人类对其、工具使用等技术对模型性能不断升级推出GPT-3.5系列模型
GPT-4:全面提升->GPT-4V:拥有多模态功能

1.1 GPT敲重点：

可拓展的训练架构和学习范式：transformer架构能够拓展到百亿、千亿甚至万亿的参数规模，并且将预训练任务统一为预测下一个单词这一通用学习范式；
对于数据质量和数据规模的重视：不同于bert时代的预训练语言模型，这次大语言模型的成功与数据有着更为紧密的关系。

相关文章

大语言模型学习笔记-1-1. GPT发展历程

