MoE-LLaVA:具有高效缩放和多模态专业知识的大型视觉语言模型-MoE微调

时间：2024-02-16 20:13:21

MoE-tuning是一个复杂的三阶段训练策略，旨在优化具有混合专家的LVLMs的性能:

阶段1:重点关注使图像标记适应语言模型，使用MLP将这些标记投射到语言模型的领域，将它们视为伪文本标记。

阶段2:涉及对多模态指令数据进行调优，以增强模型的能力。这个阶段将模型调整为具有多模态理解的LVLM。

阶段3:FFN被多次复制以初始化模型中的专家。然后MoE层处理令牌，每个令牌由top-k专家处理，从而形成一个用稀疏方法有效处理任务的模型。

