- GPT-1:通用文本训练+特定任务微调
- GPT-2/GPT-3:扩大与训练数据和模型参数规模,显著提升模型性能,并确立了基于自然语言形式的通用任务解决路径。
- GPT-3.5:在GPT-3的基础上,通过代码训练、人类对其、工具使用等技术对模型性能不断升级推出GPT-3.5系列模型
- GPT-4:全面提升->GPT-4V:拥有多模态功能
1.1 GPT敲重点:
- 可拓展的训练架构和学习范式:transformer架构能够拓展到百亿、千亿甚至万亿的参数规模,并且将预训练任务统一为预测下一个单词这一通用学习范式;
- 对于数据质量和数据规模的重视:不同于bert时代的预训练语言模型,这次大语言模型的成功与数据有着更为紧密的关系。