2024年6月后2周重要的大语言模型论文总结：LLM进展、微调、推理和对齐-LLM推理

1、Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

大型语言模型（LLMs）在文本数学问题解决方面表现出令人印象深刻的推理能力。

但是现有的开源图像指令微调数据集，每张图像包含的问题-答案对数量有限，未能充分利用视觉信息来增强多模态LLMs（MLLMs）的多模态数学推理能力。

为了弥合这一差距，作者通过从24个现有数据集中收集40,000张高质量图像及其问题-答案对，并合成320,000个新对，创建了MathV360K数据集，这一数据集增强了多模态数学问题的广度和深度。

论文还引入了Math-LLaVA，一种基于LLaVA-1.5并用MathV360K微调的模型。这种新方法显著提高了LLaVA-1.5的多模态数学推理能力，在MathVista的最小分割上实现了19点的增长，并与GPT-4V的表现相当。

并且Math-LLaVA展示了更强的泛化能力，在MMMU基准测试上显示出显著改进。这个研究强调了数据集多样性和合成在推进MLLMs数学推理能力方面的重要性。

https://arxiv.org/abs/2406.17294

秒客网