基于大模型重构业务应用的时候,什么情况下需要微调大模型?或者说大模型微调的能力边界是什么?这是个不得不回答的问题。因为很多时候,大家觉得只有微调了个自己的,才是真正搞了个“大模型”项目。
前排提示,文末有大模型AGI-****独家资料包哦!
第41届国际机器学习大会(ICML)上的论文《A Closer Look at the Limitations of Instruction Tuning》对上述提出的问题给出了解答,借助通义效率-阅读助手对论文中的要点摘录如下。
1.要点
指令微调(Instruction Tuning,IT),即使用“指令-回答对”训练大型语言模型(Large Language Models,LLM)的过程,已成为将基础预训练的LLM转换为通用对话智能体的主要方法。尽管IT取得了显著的成功并得到了广泛的应用,但其局限性和不足之处仍有待深入研究。本文通过严格的实验和对经过IT处理的LLM所发生的变化进行深入分析,揭示了IT的各种局限性。特别是,我们表明:
(1)IT无法增强LLM的知识或技能。LoRA微调仅限于学习初始回答和输出的Tokens风格,而全参数微调会导致知识退化。
(2)从IT数据集中的知识来源中复制回答模式会降低回答质量。
(3)全参数微调通过不准确地借用概念上相似实例中的Tokens来生成回答,从而增加了幻觉。
(4)提高IT性能的方法并未在简单LoRA微调模型之上带来性能提升。
我们的发现揭示了仅基于预先训练知识产生的回答始终优于从IT数据集中学习任何新形式知识的模型在开源数据集上的回答。
2.主要观点
在本篇论文中,我们研究并揭示了IT的几个局限性。为了实现这一目标,我们在各种开源IT数据集、LLM和训练范式上进行了实验,以研究基线预训练模型在经过IT后所经历的变化。此外,在评估方面,我们进行了一种结合专家人类评价、基于GPT-4的多方面评价以及Tokens分布分析(Lin等人,2023)的方法。我们的研究明确地专注于评估IT开发开放域对话智能体的有效性,并且仅限于单轮交互。我们的广泛结果揭示如下:
(1)IT不是知识增强器。与当前工作(Gudibande等,2023)类似,我们首先发现IT在当前开源大模型规模下并不作为知识增强器发挥作用。为了进一步挖掘,我们将基础LLM和其IT版本的Tokens分布进行比较,发现LoRA (Hu等,2021)仅能调整问答启动的风格,并从预训练的知识中提取大部分回答内容。另一方面,全参数微调会导致知识退化,并降低整体回答质量。
(2)模式复制(Pattern-Copying)通常会损害性能。我们首先表明,使用LoRA和全参数微调的模型学习模式复制的方式非常不同。前者只是学习风格化的Tokens,后者使模型更深入地适应新训练数据的具体情况。接下来,我们表明,尽管有时模式复制有一些优势,如详细而全面的回答,但大多数时候它会损害回答的事实正确性。
(3) 全面微调会导致知识退化,增加幻觉的可能性。这些幻觉是来自IT数据集的Tokens。我们表明,在模型产生幻觉或输出错误Tokens时,这些Tokens极有可能是从IT数据集中具有相似概念的实例中借用的。我们进一步从因果分析的角度研究了这一现象。这种影响在使用全参数微调训练的模型中比LoRA微调更普遍。
(4)各种提高IT的方法,如文献中提出的,没有改善模型性能。我们比较了几种方法,如NEFTune(Jain等人,2023年)和数据集过滤(Chen 等人,2023 年)在共同的基础上,并表明这些方法虽然比完全微调模型有所改进,但 LoRA 微调模型的表现优于所有这些方法。因此,这些方法不会促进知识的进步,利用预训练知识的模型仍然占优势。
3.限制和未来工作
我们的工作存在明显的局限性,包括(1)我们仅关注开放域指令遵循分析,并承认针对特定领域或任务进行微调可能会使模型获得新技能和知识。(2)我们的分析仅限于单模态语言IT,(3)我们没有研究更先进的对齐方法的影响,如DPO (Rafailov等人,2023年),以及RLHF,并将此留待未来的工作。(4)我们未探索检索增强生成,这会将知识提取与模型分离。(5) 最后,本文的发现仅限于通用目的IT数据集(包含所有类型的一般目的日常指令响应对的数据集)和改进特定任务的IT数据集(例如,用于模仿步骤思考以改善数学推理的IT数据集(Chern等人,2023年),可能不遵守我们的发现。
最后,重复本篇论文的结论:仅基于预先训练知识产生的回答始终优于从IT数据集中学习任何新形式知识的模型在开源数据集上的回答。
因此,面向业务场景,当下我们最应该研究大模型的应用框架,而不是模型的各种微调。