训练过程分为2步:
预训练: 通过仅优化跨模态投影器,并使用交叉熵损失进行下一个标记预测,将来自预训练视觉编码器的视觉嵌入与来自LLM的文本嵌入对齐。
微调: 作者应用视觉指令调整以充分利用MLLM在不同多模态任务中的能力。作者使用与预训练阶段相同的交叉熵损失,但这次,他们采用低秩适应(LoRA)来训练跨模态投影器和LLM主干。
训练过程分为2步:
预训练: 通过仅优化跨模态投影器,并使用交叉熵损失进行下一个标记预测,将来自预训练视觉编码器的视觉嵌入与来自LLM的文本嵌入对齐。
微调: 作者应用视觉指令调整以充分利用MLLM在不同多模态任务中的能力。作者使用与预训练阶段相同的交叉熵损失,但这次,他们采用低秩适应(LoRA)来训练跨模态投影器和LLM主干。