【大模型LLM】DeepSeek LLM Scaling Open-Source Language Models with Longtermism-1.引言

时间:2025-02-24 07:38:29

在过去的几年中,基于仅解码器架构的Transformer(Vaswani等,2017)的大型语言模型(LLMs)逐渐成为实现人工通用智能(AGI)的基石和途径。通过预测连续文本中的下一个词,LLMs在大量数据集上进行了自监督预训练,使其能够实现多种目的并具备多种能力,如创新创作、文本摘要、代码补全等。后续的监督微调和奖励建模等发展,使大型语言模型(LLMs)能够更好地遵循用户的意图和指令。这赋予了它们更广泛的对话能力,并迅速扩大了其影响力。

这一波浪潮由闭源产品引发,例如ChatGPT(OpenAI,2022)、Claude(Anthropic,2023)和Bard(Google,2023),这些产品在开发过程中投入了大量的计算资源和标注成本。这些产品显著提高了社区对开源大语言模型(LLM)能力的期望,从而激发了一系列相关研究(Bai等,2023;Du等,2022;Jiang等,2023;Touvron等,2023a,b;Yang等,2023)。其中,LLaMA系列模型(Touvron等,2023a,b)尤为突出。它整合了一系列工作,构建了一个高效且稳定的架构,打造了从7B到70B参数范围内表现优异的模型。因此,LLaMA系列已成为开源模型在架构和性能方面的实际基准。

继LLaMA之后,开源社区主要专注于训练固定规模(7B、13B、34B和70B)的高质量模型,往往忽视了对大语言模型(LLM)扩展规律的研究探索(Hoffmann等,2022;Kaplan等,2020)。然而,考虑到当前开源模型仅处于通用人工智能(AGI)发展的初始阶段,扩展规律的研究至关重要。此外,早期研究(Hoffmann等,2022;Kaplan等,2020)在模型和数据随计算预算增加的扩展问题上得出了不同的结论,且对超参数的讨论不够充分。在本文中,我们深入研究了语言模型的扩展行为,并将研究结果应用于两种广泛使用的大规模模型配置,即7B和67B。我们的研究旨在为未来开源LLM的扩展奠定基础,推动该领域的进一步发展。具体而言,我们首先考察了批量大小和学习率的扩展规律,并发现了它们随模型规模变化的趋势。在此基础上,我们对数据和模型规模的扩展规律进行了全面研究,成功揭示了最优的模型/数据扩展分配策略,并预测了我们大规模模型的预期性能。此外,在开发过程中,我们发现不同数据集得出的扩展规律存在显著差异。这表明数据集的选择对扩展行为有显著影响,因此在跨数据集推广扩展规律时应谨慎行事。

在我们的扩展法则指导下,我们从零开始构建开源的大型语言模型,并尽可能多地发布信息以供社区参考。我们收集了2万亿个token用于预训练,主要涵盖中文和英文。在模型层面,我们基本遵循了LLaMA的架构,但将余弦学习率调度器替换为多步学习率调度器,在保持性能的同时便于持续训练。我们从多种来源收集了超过100万个实例用于监督微调(SFT)(Ouyang等,2022)。本文分享了我们在不同SFT策略和数据消融技术中的经验与发现。此外,我们还利用直接偏好优化(DPO)(Rafailov等,2023)来提升模型的对话性能。

我们使用基础模型和对话模型进行了广泛的评估。评估结果表明,DeepSeek LLM 在各种基准测试中均超越了 LLaMA-2 70B,特别是在代码、数学和推理领域。经过 SFT 和 DPO 训练后,DeepSeek 67B 对话模型在中英文开放式评估中均优于 GPT-3.5。这凸显了 DeepSeek 67B 在生成高质量回复和进行有意义对话方面的卓越表现。此外,安全性评估表明,DeepSeek 67B Chat 在实际应用中能够提供无害的回复。

在本文的其余部分,我们首先在第2节中介绍DeepSeek LLM的预训练基本概念,包括数据的构成、模型架构、基础设施和超参数。在第3节中,我们详细解释了我们发现的缩放定律及其意义。此外,我们讨论了选择预训练超参数背后的理由,并考虑了从缩放定律分析中获得的见解。在第4节中,我们讨论了我们的微调方法,涵盖微调数据的构成以及在SFT和DPO阶段的具体方法。随后,我们在第5节中展示了DeepSeek LLM的详细评估结果,包括基础模型和聊天模型,以及它们在开放式评估和安全评估中的表现。最后,我们在第6节中讨论了DeepSeek LLM的当前局限性和未来发展方向。