Ovis: 多模态大语言模型的结构化嵌入对齐

论文题目： Ovis: Structural Embedding Alignment for Multimodal Large Language Model

论文地址：https://arxiv.org/pdf/2405.20797

github地址： https://github.com/AIDC-AI/Ovis/?tab=readme-ov-file

今天，我将分享一项重要的研究，Ovis：结构化嵌入对齐用于多模态大语言模型。该研究旨在解决视觉和文本嵌入之间对齐的问题，以提升多模态交互的效果。 通过创新的视觉标记和嵌入查找表，Ovis有效整合了视觉信息与文本分析，展现出在多模态基准测试中的卓越表现。这一成果不仅推动了多模态模型的发展，也为相关领域的研究提供了重要参考，具有广泛的影响力。

希望通过今天的分享，大家能深入了解Ovis的独特之处及其潜在应用。老样子，我还是按照论文的框架来进行解读。

1 Abstract

当前的多模态大型语言模型（MLLMs）通常通过连接器（如多层感知机）将预训练的语言模型与另一种预训练的视觉变换器集成，从而赋予语言模型视觉能力。然而，这种集成 存在挑战，因为MLLM中的两种嵌入策略——基于嵌入查找表的结构化文本嵌入与视觉编码器直接生成的连续嵌入之间存在不一致。 本文提出了Ovis，这是一种新颖的MLLM架构，旨在结构上对齐视觉和文本嵌入。 Ovis在视觉编码过程中的嵌入中集成了一个额外的可学习视觉嵌入表。为了捕捉丰富的视觉语义，每个图像块会多次索引视觉嵌入表，从而生成一个最终的视觉嵌入，该嵌入是所索引嵌入的概率组合。**这种结构化方法与生成文本嵌入的方法相似。**对多种多模态基准的实证评估表明，Ovis在同等参数规模的开源MLLM中表现优异，甚至在整体性能上超过了专有模型Qwen-VL-Plus。**这些结果凸显了Ovis结构化视觉表示在推动MLLM架构设计和促进更有效的多模态学习中的潜力。

2. Instruction

大型语言模型（LLMs）的发展正在迅速推进，照亮了通向人工通用智能（AGI）的道路。这些复杂的模型在理解和生成文本方面表现出色。然而，要接近人类智能的复杂性和多样性，LLMs必须超越单纯的文本理解。解读和理解视觉信息的能力成为通往AGI过程中一个关键特征。 因此，开发多模态大型语言模型（MLLMs）的兴趣激增——这些模型融合了语言理解和视觉感知的力量。

当前的开源多模态大型语言模型（MLLMs）并不是直接训练整个模型，而是主要依赖于预训练的语言模型和预训练的视觉编码器来获取视觉能力。 视觉和文本组件采用不同的标记化和嵌入策略。文本嵌入通过LLM的嵌入查找表进行索引，每个“单词”通过独热编码的文本标记映射到一个嵌入。 相比之下，视觉嵌入则由视觉编码器以非结构化方式 直接生成。为了对齐这两种嵌入的维度， 交叉模态连接器（如多层感知机）将嵌入投影到一个联合空间，使所有嵌入都能作为LLM的输入。尽管这种架构仅对齐视觉和文本嵌入的维度，但在各种视觉语言任务中表现出色。然而， 标记化和嵌入策略之间的固有差异可能导致基于连接器的架构存在潜在局限**，因此一个直观的问题是“如果我们以结构化的方式生成视觉嵌入，使其与大型语言模型（LLMs）的文本嵌入策略相匹配，是否能在多模态大型语言模型（MLLMs）中实现进一步的改进？”

本文提出了一种新颖的多模态大型语言模型架构，称为“Ovis”，该架构借鉴了大型语言模型（LLMs）的理念，以建立视觉输入的结构化嵌入。如图1所示，Ovis引入了一个额外的可学习视觉嵌入查找表，以转换连续的视觉标记，从而与其文本对应物的结构完整性相匹配。图2展示了Ovis在同一参数等级的各种基准测试中优于开源的多模态大型语言模型，而Ovis-14B 在整体性能上也超过了高资源的专有模型Qwen-VL-Plus。

具体而言，Ovis集成了一个视觉嵌入表，其行对应于独特的视觉词，代表不同的视觉模式。给定由视觉编码器输出的视觉块的连续标记，Ovis首先将该标记映射为一个概率标记，揭示其在整个视觉词汇集中的相似性。概率标记捕捉了单个视觉块中的丰富语义，该视觉块可能包含多个视觉词的模式，从而有效地将视觉标记视为根据分布从视觉嵌入表中采样的结果。随后，Ovis根据概率标记多次索引视觉嵌入表，生成一个最终的视觉嵌入，该嵌入是所索引嵌入的组合，即对整个嵌入表的嵌入期望。因此，Ovis将视觉嵌入策略与其文本对应物的结构化特性对齐。

视觉嵌入表的优化以及生成概率标记的参数对多模态大型语言模型（MLLM）的性能具有显著影响。 与之前的方法（如使用带有向量量化的自动编码器处理图像和各种其他损失）不同，Ovis利用联合文本生成损失，并采用三阶段的方式优化参数。 这一学习过程避免了因缺乏文本指导而导致在视觉语言任务中表现不佳的风险。

作者使用开源视觉Transformer和大型语言模型作为基础实现了Ovis，并在多种多模态基准上评估其性能。结果表明，Ovis在大多数基准测试中优于同一参数等级的流行开源多模态大型语言模型。具体而言，Ovis-8B在竞争对手中表现出显著优势，而Ovis-14B在比较的开源MLLM中始终保持领先。令人印象深刻的是，Ovis-14B的整体表现也超过了高资源专有模型Qwen-VL-Plus，并且在通用多模态基准MMStar和MMBench以及多个专业多模态基准（包括MathVista、HallusionBench和RealWorldQA）中，其性能甚至与更强的专有模型Qwen-VL-Max相当。这些结果强调了Ovis架构的优越性和潜力。Ovis展现出的有效性和优势将推动对多模态大型语言模型架构设计的进一步研究，超越基于连接器的架构限制。

3. Related Work

Large Language Models. 近年来，大型语言模型（LLMs）的发展显著推动了自然语言处理领域的进步。GPT-3的问世标志着性能的显著提升，尤其是在少样本和零样本学习场景中，突显了LLMs的巨大潜力。 这一潜力在ChatGPT、GPT-4、Gemini和Claude等后续模型中得到了进一步验证。与此同时， 开源模型也在迅速演变，包括LLaMA系列、Vicuna、Baichuan、Qwen、Mistral和Yi。值得注意的是，开源模型Llama3和Mistral-MOE在某些情况下已接近甚至超过了闭源模型的性能。 尽管取得了这些进展，LLMs本质上缺乏处理或解读多模态数据的能力，这限制了它们在需要理解不仅仅是文本信息的场景中的应用。

Multimodal Large Language Models. 多模态大型语言模型（MLLMs）通过不仅理解和生成文本，还能解释和关联视觉元素与文本描述，增强了LLMs的能力。大多数开源MLLM由几个组件组成，即视觉编码器、连接器和LLM。连接器的类型大致可分为三类。 基于交叉注意力的方法在LLM内隔离和整合视觉和文本模态，例如Flamingo和CogVLM模型。基于查询的方法通过类似transformer的架构查询视觉嵌入，并将获得的视觉嵌入与文本一起发送到LLM，代表模型如Blip-2、Instruct-Blip和Qwen-VL。 基于投影的方法直接将视觉嵌入投影、对齐文本模态，并将混合嵌入统一输入LLM进行理解和生成，这种方法被LLaVA、Mini-GPT4、DeepSeek-VL和Mini-Gemini等模型使用。除了架构设计， 当前MLLM的研究还集中在高分辨率能力、MLLM的小型化、专业化模型（例如医疗MLLM、文档MLLM）以及其他模态的整合上。本文的Ovis作为一种新的MLLM架构，脱离了基于连接器的框架，引入了一种新颖的视觉分词器，用于结构化视觉嵌入。

Visual Tokenization. 在各种视觉任务中，视觉输入的分词已被广泛探索。VQVAE通过将视觉输入编码为离散潜变量，结合了变分自编码器和向量量化的原理。这种方法有助于生成高质量和多样化的输出，适用于图像生成和压缩等任务。基于VQVAE，VQGAN引入了PatchGAN的对抗训练框架，增强了生成图像的真实感。借助类似于VQVAE的视觉分词策略，BEIT在预训练阶段使用离散视觉tokens。在这个阶段，输入图像的部分区域被屏蔽，模型预测这些屏蔽区域的离散tokens，类似于BERT中的遮蔽语言建模。由于缺乏与语言模态的联合建模，将离散化的视觉tokens与MLLM结合的研究较少。视觉tokens的离散化已经被研究用于将视觉输出与扩散模型的输入联系起来，其中在训练过程中使用额外的重构损失和解码器。一种最近的方法采用线性头层对视觉信息进行分词，这与本文的方法有所不同。具体而言，该方法中的头层仅在蒸馏的方式下基于视觉数据进行训练， 而本文则使用来自于视觉语言数据的LLM反向传播的梯度来优化视觉头层。此外，提出学习一个专门针对视觉信息的独特视觉嵌入表，而不是像前人那样直接使用LLM的文本嵌入表来检索视觉tokens的嵌入。

4. Ovis

在本节中，首先回顾了MLLM中视觉和文本嵌入策略的差异。接着，介绍本文提出的架构Ovis，该架构在LLM中结合了用于概率令牌的线性映射和额外的视觉嵌入查找表。

4.1 Difference between Visual and Textual Tokens

在这里插入图片描述

4.2 Probabilistic Visual Tokens

为了激发MLLM的潜力，在图像和文本之间对齐内部分词策略，而不是在方程1中使用连续视觉tokens。

在这里插入图片描述

4.3 Visual Embedding Table

在这里插入图片描述

4.4 Training Strategy of Ovis

视觉嵌入和文本嵌入结合在一起作为LLM的输入。特别地，输入以下多模态嵌入序列：

在这里插入图片描述

5 Experiments

在本节中，提供实证结果，以展示所提出的MLLM架构Ovis的有效性。

5.1 Experimental Setup

实现细节： Ovis包含三个配置：LLM模块、ViT骨干网络和视觉词汇表大小。将流行的开源LLM（Qwen1.5-Chat 和 Llama3-Instruct）和ViT（Clip-ViT-L/14@336px）集成到Ovis中。 视觉词汇表的大小设定为2^{17} = 131072，这一数值与LLM的文本词汇表大小相当。为了促进社区使用和未来的创新，Ovis架构及其训练代码基于广泛使用的Transformers和DeepSpeed 包构建。在表4中详细列出了每个阶段的训练超参数。

训练数据集： Ovis主要在开源数据集上进行训练，辅以少量内部数据集。所使用的数据集可以分为三类：视觉描述、视觉描述和多模态指令，分别用于训练过程的第一、第二和第三阶段。视觉描述数据集是根据图像与其描述之间的相似性从COYO数据集中提取的。作者利用COYO数据集中提供的“clip-similarity-vitb32”和“clip-similarity-vitl14”得分来实现这一目的。具体而言，从COYO数据集中选择所有相似性指标均超过0.36的条目。视觉描述数据集和多模态指令数据集均转换为与LLaVA-Finetune 相同的格式。 作者内部数据集可以在 https://huggingface.co/datasets/AIDC-AI/Ovis-dataset 找到。训练数据集的统计信息在表5中报告。

5.2 Main Results

在多种基准上评估Ovis，涵盖了一般多模态能力基准（MMMU、MMBench-EN、MMBench-CN 和MMStar），以及更专业的多模态任务基准（MathVista-Mini、MME 、HallusionBench和RealWorldQA）。**评估使用VLMEvalKit包进行。**Ovis与流行的开源MLLM和领先的专有模型在基准性能上的比较总结在表1和表2中，所比较模型的基准得分主要来自VLMEvalKit，以保持一致性。未报告专业多模态基准性能的MLLM未包括在表2中，以保持简洁。

可以看出，Ovis-8B在大多数基准测试中优于同类大小的开源模型。Ovis-14B不仅在所有基准中表现出色，还在大多数基准中超越了高资源的专有模型Qwen-VL-Plus。 在视觉不可或缺的多模态基准MMStar中，Ovis-8B在与比较的开源MLLMs的较量中表现出明显优势，突显了其利用视觉信息的能力。Ovis在极具挑战性的大学级别MMMU基准中也取得了领先结果，展示了强大的视觉理解和推理能力。MMBench-EN和MMBench-CN基准仅在语言上有所不同。尽管Ovis的训练数据集中包含的非英语样本很少，但Ovis在两个版本中均表现良好。Ovis-14B在MMBench-EN和MMBench-CN中的表现始终出色，这表明Ovis在多模态能力上的优势不仅限于英语，还能够扩展到中文等其他语言。

专注于专业的多模态基准测试，作者发现Ovis在数学和逻辑推理方面的多模态能力优于开源竞争对手，这在MathVista-Mini基准测试中得到了显著体现。尽管Ovis仅采用了336px的ViT主干，并未使用LLaVA-Next 中的动态高分辨率等高分辨率增强技术，也未配备Mini-Gemini-HD 中的双视觉编码器，Ovis在包含高分辨率图像（如1080P）的真实世界视觉任务的RealWorldQA基准测试中表现令人印象深刻。值得注意的是，Ovis-14B在RealWorldQA中的得分甚至高于领先的专有模型GPT4V，展示了其在解决实际视觉任务中的出色多模态能力。 在MME和幻觉基准测试中，Ovis-8B和Ovis-14B分别在7B和14B层级中表现最佳。这表明Ovis强大的视觉理解和推理能力伴随着较低的幻觉率，这在医学等关键场景中应用MLLM时是一个非常理想的特性。**

5.3 Ablation Study

为了进一步阐明Ovis架构设计的优势，作者对Ovis-7B与一个基于连接器的MLLM进行了比较实验，该模型采用与Ovis-7B相同的LLM和ViT主干。作者将连接器实现为一个带有GELU激活函数的两层MLP。MLP的隐藏层大小配置为与Ovis-7B的视觉词汇大小相匹配，以确保连接器基于的MLLM和Ovis-7B在参数数量上相当。在与Ovis-7B相同的数据集上训练该连接器基于的MLLM。实验结果汇总在表3中。值得注意的是，Ovis在所有基准评估中始终优于基于连接器的架构，平均实现了8.8%的性能提升。考虑到相同的参数数量、主干和训练数据集，这些结果有力地支持了Ovis架构设计的有效性。

6 Conclusion

作者强调了在MLLM中结构性对齐视觉嵌入与文本嵌入的必要性，考虑到它们在标记化和嵌入策略上的不同。 在Ovis中，引入了一个额外的视觉嵌入查找表。图像块被映射为概率性标记，这些标记然后索引视觉嵌入表，并以类似于文本嵌入的结构方式进行转换。通过各种多模态基准的实证评估验证了Ovis的有效性，结果表明它在相似参数规模的开源MLLM和专有模型Qwen-VL-Plus中表现优异。

7 Broader Impact and Limitations

广泛影响。 作为一种强大的多模态大语言模型架构，Ovis有潜力通过增强视觉内容与文本分析之间的交互，惠及广泛的用户。然而，必须承认Ovis可能带来的负面影响，例如幻觉风险，即Ovis可能生成误导性或不正确信息，可能导致虚假信息的传播。 此外，Ovis也存在偏见和潜在的危害，这是生成模型中常见的问题。这些潜在的不利影响可以通过内容审查机制和透明的模型开发来减轻。

局限性。 尽管Ovis展示了良好的性能，但在处理高分辨率图像的视觉任务时，其效果有限，因为缺乏高分辨率增强技术。此外，Ovis仅使用单图像样本进行训练，这在面对需要跨多个图像进行视觉理解的场景时会带来挑战。大量研究工作已致力于这些领域，主要是在基于连接器的框架内。从这些研究中汲取灵感，计划在未来版本中增强Ovis的能力，以更好地处理高分辨率图像和多图像输入。