MoE-LLaVA:具有高效缩放和多模态专业知识的大型视觉语言模型-MoE微调

时间:2024-02-16 20:13:21

MoE-tuning是一个复杂的三阶段训练策略,旨在优化具有混合专家的LVLMs的性能:

阶段1:重点关注使图像标记适应语言模型,使用MLP将这些标记投射到语言模型的领域,将它们视为伪文本标记。

阶段2:涉及对多模态指令数据进行调优,以增强模型的能力。这个阶段将模型调整为具有多模态理解的LVLM。

阶段3:FFN被多次复制以初始化模型中的专家。然后MoE层处理令牌,每个令牌由top-k专家处理,从而形成一个用稀疏方法有效处理任务的模型。