多模态大语言模型
- 训练过程
-
- 视觉-语言对齐预训练
- 视觉指令微调
- 多模态大语言模型的评测
-
- 评测维度
- 评测基准
- 代表性的多模态大语言模型
-
- MiniGPT-4
- LLaVA
- GPT-4V
- Gemini
- 总结
-
- 应用建议
- 未来方向
多模态大语言模型(Multimodal Large Language Model, MLLM)主要是指那些能够处理和整合多种模态信息(比如文本、图像和音频)的大语言模型。本节内容将以视觉-语言大语言模型为例,对相关技术进行介绍,类似的技术也可扩展到其他模态(如音频-语言)。多模态大语言模型的模型结构和训练数据如下图所示。通常来说,多模态大语言模型主要由一个用于图像编码的视觉编码器和一个用于文本生成的大语言模型所组成,进一步这两个模型通过连接模块进行组合,从而将视觉的表示对齐到文本语义空间中。在文本生成的过程中,图像首先被分割成图像块(Patch),然后通过图像编码器和连接模块转换成图像块嵌入,以得到大语言模型可以理解的视觉表示。随后,