本文是LLM系列文章,针对《LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models》的翻译。
LogicBench:大型语言模型逻辑推理能力的系统评价
- 摘要
- 1 引言
- 2 相关工作
- 3 LogicBench
- 4 结果和分析
- 5 结论
- 局限性
摘要
最近开发的大型语言模型(LLM)已被证明在广泛的语言理解任务中表现出色。但是,他们真的能“推理”自然语言吗?这个问题一直受到广泛的研究关注,许多推理技巧,如常识、数值和定性,都得到了研究。然而,与“逻辑推理”相关的关键技能仍未得到充分探索。现有的研究LLM这种推理能力的工作只集中在命题逻辑和一阶逻辑的几个推理规则(如模式子和模式子)上。针对上述局限性,我们综合评估了LLM在跨越命题逻辑、一阶逻辑和非单调逻辑的25种不同推理模式上的逻辑推理能力。为了实现系统评估,我们引入了LogicBench,这是一个专注于使用单个推理规则的自然语言问答数据集。我们使用思维链提示对GPT-4、ChatGPT、Gemini、Llama-2和Mistral等一系列LLM进行详细分析。实验结果表明,现有的LLM在LogicBench上表现不佳;尤其是,他们难以应对涉及复杂推理和否定的情况。此外,他们有时会忽略推理得出正确结论所需的上下文信息。我们相信,我们的工作和发现有助于未来研究评估和提高LLMs的逻辑推理能力。
1 引言
2 相关工作
3 LogicBench
4 结果和分析
5 结论
在这项工作中,我们评估了LLM在25种不同推理规则和推理模式上的逻辑推理能力,这些规则和模式涵盖了PL、FOL和NM逻辑。为此,我们引入了LogicBench,这是一个专注于评估单个推理规则的自然语言问答数据集。我们使用LogicBench设计了两个任务:(i)BQA和(ii)MCQA。我们在这两项任务中评估了一系列LLM,包括GPT-4、ChatGPT、Gemini Pro、Llama-2和Mistral。实验结果表明,LLM在LogicBench上表现不佳,即使它们只需要应用一个推理规则。此外,我们还将LogicBench增强为LogicBench(Aug),可用于训练目的。使用LogicBench(Aug),我们证明了使用它训练的LLM可以更好地理解逻辑推理,从而在现有的逻辑数据集上获得更好的性能。