大语言模型学习笔记-1-1. GPT发展历程

时间:2024-06-14 10:48:52
  • GPT-1:通用文本训练+特定任务微调
  • GPT-2/GPT-3:扩大与训练数据和模型参数规模,显著提升模型性能,并确立了基于自然语言形式的通用任务解决路径。
  • GPT-3.5:在GPT-3的基础上,通过代码训练、人类对其、工具使用等技术对模型性能不断升级推出GPT-3.5系列模型
  • GPT-4:全面提升->GPT-4V:拥有多模态功能

1.1 GPT敲重点:

  1. 可拓展的训练架构和学习范式:transformer架构能够拓展到百亿、千亿甚至万亿的参数规模,并且将预训练任务统一为预测下一个单词这一通用学习范式;
  2. 对于数据质量和数据规模的重视:不同于bert时代的预训练语言模型,这次大语言模型的成功与数据有着更为紧密的关系。