LaVy: 越南多模态大型语言模型-Training Procedure

训练过程分为2步：

预训练：通过仅优化跨模态投影器，并使用交叉熵损失进行下一个标记预测，将来自预训练视觉编码器的视觉嵌入与来自LLM的文本嵌入对齐。
微调：作者应用视觉指令调整以充分利用MLLM在不同多模态任务中的能力。作者使用与预训练阶段相同的交叉熵损失，但这次，他们采用低秩适应（LoRA）来训练跨模态投影器和LLM主干。

秒客网

LaVy: 越南多模态大型语言模型-Training Procedure

相关文章