LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models

时间:2025-04-10 20:04:57

本文是LLM系列文章,针对《LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models》的翻译。

LogicBench:大型语言模型逻辑推理能力的系统评价

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 LogicBench
  • 4 结果和分析
  • 5 结论
  • 局限性

摘要

最近开发的大型语言模型(LLM)已被证明在广泛的语言理解任务中表现出色。但是,他们真的能“推理”自然语言吗?这个问题一直受到广泛的研究关注,许多推理技巧,如常识、数值和定性,都得到了研究。然而,与“逻辑推理”相关的关键技能仍未得到充分探索。现有的研究LLM这种推理能力的工作只集中在命题逻辑和一阶逻辑的几个推理规则(如模式子和模式子)上。针对上述局限性,我们综合评估了LLM在跨越命题逻辑、一阶逻辑和非单调逻辑的25种不同推理模式上的逻辑推理能力。为了实现系统评估,我们引入了LogicBench,这是一个专注于使用单个推理规则的自然语言问答数据集。我们使用思维链提示对GPT-4、ChatGPT、Gemini、Llama-2和Mistral等一系列LLM进行详细分析。实验结果表明,现有的LLM在LogicBench上表现不佳;尤其是,他们难以应对涉及复杂推理和否定的情况。此外,他们有时会忽略推理得出正确结论所需的上下文信息。我们相信,我们的工作和发现有助于未来研究评估和提高LLMs的逻辑推理能力。

1 引言

2 相关工作

3 LogicBench

4 结果和分析

5 结论

在这项工作中,我们评估了LLM在25种不同推理规则和推理模式上的逻辑推理能力,这些规则和模式涵盖了PL、FOL和NM逻辑。为此,我们引入了LogicBench,这是一个专注于评估单个推理规则的自然语言问答数据集。我们使用LogicBench设计了两个任务:(i)BQA和(ii)MCQA。我们在这两项任务中评估了一系列LLM,包括GPT-4、ChatGPT、Gemini Pro、Llama-2和Mistral。实验结果表明,LLM在LogicBench上表现不佳,即使它们只需要应用一个推理规则。此外,我们还将LogicBench增强为LogicBench(Aug),可用于训练目的。使用LogicBench(Aug),我们证明了使用它训练的LLM可以更好地理解逻辑推理,从而在现有的逻辑数据集上获得更好的性能

局限性