Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

时间:2025-03-30 08:51:24

本文是LLM系列文章,针对《Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models》的翻译。

Groma:多模态大型语言模型的本地化视觉标记化

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 方法
  • 4 GPT4V辅助基准对话生成
  • 5 实验
  • 6 局限性和结论

摘要

我们介绍了Groma,一种具有基准和细粒度视觉感知能力的多模态大型语言模型(MLLM)。除了全面的图像理解,Groma还擅长区域级任务,如区域字幕和视觉基础。这些功能建立在本地化的视觉标记化机制之上,在该机制中,图像输入被分解为感兴趣的区域,随后被编码为区域标记。通过将区域标记集成到用户指令和模型响应中,我们无缝地使Groma能够理解用户指定的区域输入,并将其文本输出基于图像。此外,为了增强Groma的基准聊天能力,我们利用强大的GPT-4V和视觉提示技术策划了一个视觉基准指令数据集。与依赖语言模型或外部模块进行本地化的MLLM相比,Groma在标准引用和基础基准测试中始终表现出卓越的性能,突出了将本地化嵌入图像标记化的优势。项目页面:/.

1 引言

2 相关工作

3 方法

4 GPT4V辅助基准对话生成

5 实验

6 局限性和结论

在本文中,我们引入了一种新的范式Groma,以释放MLLM的局部感知能力。我们率先尝试将本地化嵌入到图像标记化中。我们的范式基于一种先感知后理解的心态,这种心态将本地化与高级理解和推理分开。在不引入外部模块的情况下,我们的方法克服了使用LLM作为位置解码器的分辨率瓶颈,并统一了参考和视觉基准任务。大量的实验表明,我们的方法在局部感知方面表现出色,这可以从它在指代和视觉基础任务中的成功中得到证明。
然而,当前的实现不支持*形式的区域输入和像素级基准。解决这些限制的一个有前景的方向是使用视觉采样器重新实现区域编码器,并用像Mask2Former这样的掩模区域提议器替换框区域提议器。我们把它留给未来的研究。