1、Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models
大型语言模型(LLMs)在文本数学问题解决方面表现出令人印象深刻的推理能力。
但是现有的开源图像指令微调数据集,每张图像包含的问题-答案对数量有限,未能充分利用视觉信息来增强多模态LLMs(MLLMs)的多模态数学推理能力。
为了弥合这一差距,作者通过从24个现有数据集中收集40,000张高质量图像及其问题-答案对,并合成320,000个新对,创建了MathV360K数据集,这一数据集增强了多模态数学问题的广度和深度。
论文还引入了Math-LLaVA,一种基于LLaVA-1.5并用MathV360K微调的模型。这种新方法显著提高了LLaVA-1.5的多模态数学推理能力,在MathVista的最小分割上实现了19点的增长,并与GPT-4V的表现相当。
并且Math-LLaVA展示了更强的泛化能力,在MMMU基准测试上显示出显著改进。这个研究强调了数据集多样性和合成在推进MLLMs数学推理能力方面的重要性。
https://arxiv.org/abs/2406.17294