DiffPruning:差异修剪的有效参数传递学习

时间:2024-06-13 00:21:32
【文件属性】:

文件名称:DiffPruning:差异修剪的有效参数传递学习

文件大小:6.5MB

文件格式:ZIP

更新时间:2024-06-13 00:21:32

Python

带有参数修剪的参数有效转移学习 尽管针对特定任务的预训练网络微调已在NLP方面取得了重大的经验进步,但网络规模庞大,使得微调难以部署在多任务,受内存限制的环境中。 我们建议使用diff修剪作为一种简单的方法,以在pretrain-finetune框架内实现参数有效的传递学习。 这种方法将微调视为学习特定于任务的差异向量,该向量应用在预训练的参数向量之上,该向量保持不变并在不同任务之间共享。 diff向量在训练期间以L0-范数罚分的可微近似方式进行自适应修剪,以鼓励稀疏性。 随着任务数量的增加,差异修剪变得参数有效,因为它只需要为每个任务存储差异向量的非零位置和权重,而存储共享的预训练模型的成本保持不变。 此外,它不需要在培训期间访问所有任务,这使其在任务到达流或任务集未知的设置中很有吸引力。 我们发现,使用diff修剪进行微调的模型可以匹配GLUE基准上完全微调的基线的性能,而每个任务仅修


网友评论