探索大型语言模型自动评估 LLM 输出长句准确性的方法

时间:2024-07-06 16:21:52

LLM现在能够自动评估较长文本中的事实真实性

源码地址:https://github.com/google-deepmind/long-form-factuality
论文地址:https://arxiv.org/pdf/2403.18802.pdf

这篇论文是关于谷歌DeepMind的,提出了新的数据集、评估方法和衡量标准,用于对 LLM 长式事实性(长式事实性)和信息准确性进行基准测试。

研究要点包括:

  • 挑战:没有数据集、评估方法或指标来评估LLM长式产出的真实性
  • 解决方法:数据集 “LongFact”、自动评估方法 "SAFE "和评估指标 “F1@K”。
  • 第 1 点:上述方法可以量化 “法律硕士长式成果的事实性”。
  • 第 2 点:模型越大,越长的陈述越符合事实。

换句话说,这项研究可用于自动评估 LLM 输出的长式信息的准确性,并为 LLM 的未来发展提供参考。

LLM业绩评估的现状

近年来,法律硕士的成绩有了显著提高,但同时他们也存在"导致幻觉 "和 "说谎"的问题。特别是,"输出长句时准确度的显著降低 "是一个关键问题。其中一个原因是没有数据集可以评估法律硕士长篇回答问题的真实性。这是因为现有的大多数数据集主要是要求人们回答简短问题的问答,因此很难评估长式答案的真实性。此外,还没有确定量化长刑期事实的方法或指标,因此无法对其进行成功评估。

本研究提出的方法。

如前所述,该研究提出了以下三种对长篇法律硕士论文事实性的自动评估方法。

  • LongFact
  • SAFE(搜索增强事实评估器)。
  • F1@K

让我们依次来详细了解一下。

数据集: LongFact

LongFact 是本文提出的新问答数据集。

主要功能包括

  • 包括 38 个主题的 2,280 个事实调查问题
  • 主题分为四类:STEM(科学、技术、工程和数学)、社会科学、人文科学和其他。
  • 包括需要长时间回答的问题
  • 使用 GPT-4生成问题。
  • 从生成的问题中删除重复问题,并为每个主题随机抽取 30 个问题

下图左侧显示的是 “包含在 LongFact 中的问题主题百分比”,右侧显示的是 “现有数据集与 LongFact 的比较”。

与现有的数据集相比,LongFact 是可用于评估长句事实性的数据集中主题数量最多的数据集。顺便提一下,LongFact 在 GitHub 上公开发布,任何人都可以使用。因此,它有望成为未来 LLM 研究的基础。

评估方法:SAFE(Search-Augmented Factuality Evaluator)

SAFE(Search-Augmented Factuality Evaluator)是本文提出的一种用于自动评估长格式事实性(LLM)的方法。

下图是 SAFE 的概览。

SAFE 的评估按以下顺序进行

  1. 向 LLM 输入 “提示”,并让它输出 “响应”。
  2. 使用 LLM 将回复文本分解为若干 “要素”。
  3. 使用 LLM 确定 “分解的各个元素是否与输入的提示相关”。
  4. 使用已确定相关的 "单个元素 "的 LLM 生成 Google 搜索查询。
  5. 使用生成的查询进行谷歌搜索
  6. 确定谷歌搜索结果中的 "个别元素 "是否为正确信息(以及是否有充分依据)。

实质上,如下图所示,输出文本被分解为其元素、查询生成和谷歌搜索,从搜索结果中寻找支持事实的信息。

当然,"正确信息元素数量 "越多,LLM 输出的响应就越可靠

当作者为 SAFE 与人类意见不一致的 100 个事实分配正确标签时,他们发现 SAFE 的正确率为 76%,而人类的正确率仅为 19%。此外,SAFE 的表现优于人类,而成本却不到人类评分者的二十分之一。

这意味着,SAFE 将被证明成本相对较低,准确性较高。

顺便提一下,SAFE 的实施代码也在GitHub 上以开源方式提供,任何人都可以使用。

评价指标:F1@K

F1@K 是一个同时考虑拟合率(精确度)和重复率(召回率)的指标。其具体定义如下

  • 一致率 Prec(y):输出 y 中 "正确信息要素 "的百分比
  • 复制率 RK(y):输出 y 中 "正确信息元素 "数量的最小值 S(y) 除以用户预期偏好的输出句子长度(正确信息元素数量)的数量 K min(S(y)/K,1)

而 F1@K 则将拟合度和可重复性与下式相结合。

如果 S(y)>0:.

F1@K(y)=2∗Prec(y)∗RK(y)Prec(y)+RK(y)

如果 S(y)=0:.

F1@K(y)=0。

换句话说,F1@K 的值介于 0 和 1 之间,越接近 1 表示长文本的事实性越强�

K 是一个超参数,代表用户偏好的输出文本长度(正确信息元素的数量)。假设用户认为最多 K 个 "信息正确元素 "越多越好,但对超过 K 个的 "信息正确元素 "则漠不关心。

例如,如果 K=64,用户认为 64 以内的 "正确信息要素 "越多越好,但对第 65 条及以后的信息则漠不关心。

K 值需要根据用户的偏好来设置。

这样不仅可以评估信息是否符合事实,还可以评估信息是否包含足够的信息量。

事实上,本文使用 F1@K 对 13 个 LLM 进行了基准测试,并比较了这些模型在长句中的实际表现。

使用该数据集和评估指标及方法对 LLM 性能进行比较。

实验细节

LongFact 对 13 个 LLM(Gemini、GPT、Claude 和 PaLM-2 系列)进行了基准测试,以研究LLM 中"模型大小 "与 "长文本事实性 "之间的关系。

具体来说,每个模型都会针对从 LongFact 中随机抽取的 250 个问题生成输出结果,并使用 SAFE 进行评估。

然后,他们对 F1@K(K=64 和 K=178)的性能进行了量化和比较。

结果

实验结果表明,模型越大,越长的陈述越符合事实。

例如,GPT-4-Turbo 的事实性高于 GPT-4,GPT-4 的事实性高于 GPT-3.5-Turbo。我们还可以看到,Gemini-Ultra 的事实性高于 Gemini-Pro,PaLM-2-L-IT-RLHF 的事实性高于 PaLM-2-L-IT。

此外,无论 K 值如何,三个最符合事实的模型是 GPT-4-Turbo、Gemini-Ultra 和 PaLM-2-L-IT-RLHF。

期望这项研究将成为未来法律硕士发展的基础

本文介绍了谷歌 DeepMind 关于 "正确评估长篇法律硕士论文中信息的事实性和准确性的方法 "的研究。本研究提出了 LongFact、自动评估方法 SAFE 和 F1@K 指标,用于评估长句中 LLM 的事实性。这些将有助于澄清长篇文本中大规模语言模型的事实性现状,并为今后的研究提供基础。

本研究的局限性如下:

  • LongFact 和 SAFE 依赖于 LLM,因此直接受到所用 LLM 功能的影响
  • SAFE 依靠谷歌搜索,可能无法正确评估某些事实
  • 至于 SAFE 的性能是否与 "人类专家级评估员 "相当或更好,尚未进行测试。

因此,他们计划今后开展有关学习、微调和使用外部工具的研究,以提高较长法律硕士课程的事实性。他还表示,SAFE "依赖语言模型 "的改进以及根据 LLM 内部知识评估较长文本中事实准确性的方法的开发也在计划阶段。