【大语言模型学习】LORA微调方法

时间：2024-11-16 07:58:52

LORA: Low-Rank Adaptation of Large Language Models

摘要

LoRA (Low-Rank Adaptation) 提出了一种高效的语言模型适应方法，针对预训练模型的适配问题：

目标：减少下游任务所需的可训练参数，降低硬件要求。
方法：冻结预训练模型权重，注入低秩分解矩阵，从而在不影响推理速度的前提下显著减少 GPU 内存需求和可训练参数。
效果：在 RoBERTa、DeBERTa、GPT-2 和 GPT-3 上，LoRA 的效果与完全微调（full fine-tuning）相当甚至更优。

1. 介绍

现状：对大型语言模型进行完整微调的成本高昂。
LoRA 方法：通过插入可训练的低秩矩阵（A 和 B）来代替完整的权重更新，从而减少对计算和存储的需求。
优势：减少了计算需求和存储开销，不增加推理延迟，可用于大规模的模型适应。

2. 问题陈述

问题：适应语言模型到下游任务，传统微调方法会生成多个庞大的模型实例，增加存储和计算成本。
解决方案：用参数数量远小于

相关文章

