Agent AI: Surveying the Horizons of Multimodal Interaction---医疗保健、视频音频、多模态

时间:2024-12-12 18:57:27

医疗保健领域

    在医疗保健领域,大型语言模型(LLMs)和视觉语言模型(VLMs)可以作为诊断代理、患者护理助手,甚至是辅助治疗工具,但它们也伴随着独特的挑战和责任。AI代理在提高患者护理质量和拯救生命方面具有巨大潜力,但其不当使用或匆忙部署也可能对数千乃至数百万人的生命安全构成威胁。我们将探讨AI代理在医疗保健领域的几种有前景的应用路径,并讨论面临的关键挑战。

    诊断代理。近年来,使用LLMs作为医疗聊天机器人进行患者诊断引起了极大关注,因为对医学专家的需求很高,而LLMs有潜力帮助进行分诊和诊断(Lee等人,2023)。对话代理,尤其是那些能够有效地向不同患者群体传达重要医疗信息的代理,有潜力为历来处于不利地位或边缘化的群体提供公平的医疗服务。此外,全球各地的医生和医疗系统普遍负担过重、资源不足,导致数亿人无法获得足够的医疗服务(世界卫生组织和世界银行,2015)。诊断代理为改善数百万人的医疗健康提供了特别有利的途径,因为它们可以理解多种语言、文化和健康状况。初步研究表明,可以利用大规模网络数据训练具备医疗知识的LLMs(Li等人,2023f)。尽管这一方向令人期待,但诊断代理的应用也伴随着风险。我们在下文中着重介绍了在医疗环境中出现“幻觉”现象的风险及其潜在的解决方案。

    知识检索代理。在医疗环境中,模型的“幻觉”现象特别危险,可能导致严重的患者伤害甚至死亡,具体取决于错误的严重程度。例如,如果患者错误地被告知他们没有某种实际存在的疾病,可能导致灾难性后果,包括延迟或不当治疗,甚至完全缺乏必要的医疗干预。未被诊断或被误诊的疾病可能导致医疗费用增加、治疗周期延长、身体额外负担增加,甚至在极端情况下造成严重的伤害或死亡。因此,采用能够更可靠地检索知识的代理(Peng等人,2023)或基于检索生成文本的代理(Guu等人,2020)是一个有前景的方向。将诊断代理与医疗知识检索代理配对,有望显著减少幻觉现象,同时提高诊断对话代理的回答质量和准确性。

    远程医疗和远程监控。基于代理的AI在远程医疗和远程监控领域也具有巨大潜力,可以改善医疗获取、增进医护人员与患者的沟通效率,并减少频繁的医患互动成本(Amjad等人,2023)。初级保健医生花费大量时间筛选患者信息、报告和邮件,其中许多信息对于他们来说是不必要的或无关紧要的。支持代理可以帮助分诊来自医生、患者和其他医护人员的消息,并帮助突出所有相关方的重要信息。通过让智能AI系统协调患者、医生和其他AI代理,有望彻底变革远程医疗和数字健康行业。

当前医疗能力

    图像理解。我们展示了现代多模态代理(如GPT-4V)在医疗保健中的当前能力和局限性(如图19所示)。可以看出,尽管GPT-4V具备医院护理所需设备和流程的显著内部知识,但它不总是能够对用户的具体诊断查询做出精确回应。

在这里插入图片描述
图 19:在医疗图像理解领域中使用 GPT-4V 的示例提示和响应。从左到右依次为:(1) 护士和医生进行 CT 扫描的图像,(2) 不规则心电图的合成图像,(3) 来自 ISIC(Codella 等, 2018)皮肤病变数据集的图像。可以看出,GPT-4V 具备显著的医学知识,能够对医学图像进行推理。然而,由于安全性训练,GPT-4V 无法对某些医学图像做出诊断。

    视频理解。我们在两个情境下探讨了VLM代理在医学视频理解方面的表现。首先,我们研究了VLM代理在临床环境中识别重要患者护理活动的能力。其次,我们探索了VLM在处理更具技术性的医学视频(如超声视频)中的应用。具体来说,在图20中,我们展示了GPT-4V在医院护理和医学视频分析方面的当前能力和局限性。

在这里插入图片描述
图 20:在医疗视频理解领域中使用 GPT-4V 的示例提示和响应。我们将示例视频输入为带有顺序文本的 2x2 网格帧。在前两个示例中,我们提示 GPT-4V 检查视频帧,以检测对志愿患者进行的临床床边活动。在最后一个示例中,我们尝试提示 GPT-4V 评估心脏超声波视频,但由于 GPT-4V 的安全性训练,它未提供详细响应。为清晰起见,我们将描述主要活动的文本加粗,并简化不必要的模型响应。同时,我们对个体的面部进行了灰度处理,以保护其隐私。

在这里插入图片描述
图 21:交互式多模态智能体包含四个主要支柱:交互、语音、视觉和语言。协同智能体由不同的服务组成。1)交互服务帮助创建用于自动化操作、认知和决策的统一平台。2)音频服务将音频和语音处理集成到应用程序和服务中。3)视觉服务识别并分析图像、视频和数字墨水中的内容。4)语言服务从结构化和非结构化文本中提取意义。

多模态代理

    视觉和语言理解的整合对于开发先进的多模态AI代理至关重要。这包括图像描述、视觉问答、视频语言生成和视频理解等任务。我们致力于深入探讨这些视觉-语言任务,探索它们在AI代理环境中的挑战和机遇。

图像-语言理解与生成

    图像-语言理解是一项任务,涉及通过语言解释给定图像中的视觉内容,并生成相关的语言描述。这项任务对开发能够更人性化地与世界互动的AI代理至关重要。一些常见的任务包括图像描述(Lin等人,2014;Sharma等人,2018;Young等人,2014;Krishna等人,2016)、指称表达(Yu等人,2016;Karpathy等人,2014)和视觉问答(Antol等人,2015;Ren等人,2015;Singh等人,2019)。

    最近,知识密集型视觉问答任务(如OKVQA、KBVQA、FVQA和WebQA)被提出。多模态代理应能够识别图像中的物体,理解它们的空间关系,生成关于场景的准确描述性句子,并利用推理能力处理知识密集型的视觉推理。这不仅需要物体识别能力,还需要对空间关系、视觉语义的深刻理解,以及将这些视觉元素与世界知识相结合并映射到语言结构的能力。

视频和语言的理解与生成

    视频语言生成。视频字幕或视频叙事是一项生成视频帧序列的连贯句子的任务。受益于在视频和语言任务中广泛使用的循环大型基础模型,基于代理增强的模型在视频语言生成任务中展现了良好效果。主要挑战在于神经编码-解码模型的强性能在视觉叙事任务上难以推广,因为这项任务需要全面理解每帧的内容以及帧与帧之间的关系。该领域的一个重要目标是创建一个能够有效编码帧序列并生成主题连贯多句段落的代理感知文本合成模型。

    视频理解。视频理解将图像理解的范围扩展到动态视觉内容。这涉及对视频帧序列的解释和推理,通常伴有音频或文本信息。代理应该能够与视觉、文本和音频多种模态进行互动,以展示其对视频内容的高级理解。该领域的任务包括视频字幕、视频问答和活动识别等。视频理解的挑战多种多样,包括视觉和语言内容的时间对齐、处理长帧序列以及对随时间展开的复杂活动的解读。在音频方面,代理能够处理口头语言、背景噪音、音乐和语音语气,以理解视频内容的情绪、背景和细微差别。

    以往的研究主要利用现有的在线视频语言训练数据来建立视频基础模型。支持这些训练流程和功能非常困难,因为这些数据集通常有限且不一致。视频基础模型设计了掩码和对比预训练目标,并在后续任务中进行微调。尽管在多模态基准测试中展示出卓越的结果,但这些模型在仅限视频的任务(如动作识别)中面临困难,原因在于其依赖有限的视频-文本数据,这些数据通常由嘈杂的音频转录而来。这一局限性也导致模型缺乏大型语言模型通常具备的稳健性和细粒度推理能力。

    类似于图像-语言理解的方法,其他方法也借鉴了大型语言模型的强大推理能力和广泛知识,以改进视频解读的不同方面。通过像ChatGPT和GPT-4这样的语言模型或GPT-4V这样的图像-语言模型将音频、视频和语言模态视为单独的可解释输入数据类型,从而简化视频理解任务。例如,(Huang等人,2023c;Li等人,2023g)通过使用开源视觉分类/检测/描述模型将视频内容文本化,将视频理解任务转换为自然语言处理问答格式。(Lin等人,2023)整合了GPT-4V与视觉、音频和语音的专用工具,以便于复杂的视频理解任务,如为长视频中的角色动作和行为编写脚本。

    并行研究探索了从大型模型生成的扩展数据集,然后在生成的数据集上进行视觉指令微调。随后使用了大量音频、语音和视觉感知专家模型将视频语言化。语音通过自动语音识别工具转录,视频描述和相关数据则通过各种标记、定位和字幕模型生成。这些技术展示了在生成数据集上进行视频语言模型指令微调可能提升视频推理能力。

实验与结果

  • 知识密集型模型:如INK(Park等人,2022)和KAT(Gui等人,2022a)所介绍的,这是一个集成了人工注释所需知识的密集神经知识任务,用于支持知识密集型检索任务。
  • 多模态代理:多模态语言模型如Chameleon(Lu等人,2023)和MM-React(Yang等人,2023c)引起了越来越多的关注。
  • 视觉指令微调:VCL(Gui等人,2022b)、Mini-GPT4(Zhu等人,2023)、MPLUG-OWL(Ye等人,2023b)、LSKD(Park等人,2023c)生成图像级别的指令微调数据集。

    知识密集型代理。如图22和图23所示,基于知识的视觉问答和视觉-语言检索任务是多模态机器学习中的一项挑战性任务,这些任务需要超越图像内容的外部知识。最近关于大型Transformer的研究主要聚焦于通过优化模型参数来最大化信息存储的效率。这类研究探索了一个不同的方面:多模态Transformer是否可以在决策过程中使用显性知识。基于Transformer的预训练方法在多模态知识表示的隐性学习方面取得了显著成功。然而,传统方法主要是单模态的,研究了知识检索和后续的答案预测,但这引发了关于所检索知识的质量和相关性的问题,以及如何利用隐性和显性知识整合推理过程的问题。为了解决这些问题,我们引入了知识增强Transformer(KAT),在2022年的OK-VQA开放领域多模态任务中比其他方法提高了6%的性能。KAT结合了来自GPT-3的隐性知识和来自网站的显性知识,使用编码器-解码器结构,允许在答案生成过程中并行使用这两种知识类型进行推理。此外,整合显性知识提高了模型预测的可解释性。代码和预训练模型可在 https://github.com/guilk/KAT上获得。

在这里插入图片描述
图 22:密集神经知识(INK)任务的示例(Park 等, 2022),该任务使用知识从一组文本候选中识别与图像相关的文本。我们的任务涉及利用从网络和人工标注知识中检索到的视觉和文本知识。

在这里插入图片描述
图 23:KAT 模型(Gui 等, 2022a)使用基于对比学习的模块从显性知识库中检索知识条目,并使用 GPT-3 检索带有支持证据的隐性知识。知识整合由相应的编码器 Transformer 处理,并通过端到端训练与推理模块和解码器 Transformer 一起生成答案。

在这里插入图片描述
图 24:VLC 模型(Gui 等, 2022b)的整体架构。我们的模型由三个模块组成:(1) 特定模态投影。我们使用简单的线性投影来嵌入分块图像,并使用词嵌入层来嵌入分词后的文本;(2) 多模态编码器。我们使用一个 12 层的 ViT(Dosovitskiy 等, 2021),该模型从 MAE(He 等, 2022)(无标签的 ImageNet-1K)初始化,作为我们的主干网络;(3) 特定任务解码器。我们通过遮掩图像/语言建模和图像-文本匹配来学习多模态表示,这些任务仅用于预训练。在微调多模态编码器以进行下游任务时,我们使用 2 层 MLP。重要的是,我们发现遮掩图像建模目标在第二阶段预训练过程中非常重要,不仅用于视觉 Transformer 的初始化。

    视觉-语言Transformer代理。接下来,我们介绍了“从标题中训练视觉-语言Transformer”(VLC)模型(Gui等人,2022b),这是一个仅通过图像-标题对进行预训练的Transformer。尽管VLC只使用了一个简单的线性投影层来进行图像嵌入,但在多种视觉-语言任务中获得了具有竞争力的结果,与依赖对象检测器或监督CNN/ViT网络的方法不同。通过广泛的分析,我们探索了VLC作为视觉-语言Transformer代理的潜力。例如,我们展示了VLC的视觉表示在ImageNet-1K分类中表现出高度有效,并且我们的可视化验证了VLC可以准确地将图像区域匹配到相应的文本标记。随着训练数据的增多,VLC的表现的可扩展性显示了开发大规模、弱监督、开放领域视觉-语言模型的潜力。

视频-语言实验

    为了评估将预训练的图像LLM(大型语言模型)用于视频理解的实用性,我们在视频字幕生成任务中对InstructBLIP (Dai等人, 2023)进行时间扩展和微调。具体而言,我们使用与Frozen in Time (Bain等人, 2021)相同的分割空间-时间注意力机制,扩展了InstructBLIP的视觉编码器(EVA-CLIP-G (Sun等人, 2023b)),并在训练过程中保持Q-former和LLM(Flan-T5-XL (Chung等人, 2022))冻结。我们冻结了视觉编码器的所有空间层,但在字幕生成训练期间保留了时间层未冻结状态。这使得我们的模型能够接收图像和视频作为输入(与InstructBLIP在图像级别的性能一致)。我们在WebVid10M (Bain等人, 2021)的500万视频-字幕子集上进行了训练。图25中展示了两个示例输出。然而,现有的代理在完全理解视频内容中的精确和细粒度的视觉细节方面仍存在不足。视觉指令微调方法也存在类似的局限性,它们缺乏通用的、接近人类水平的感知能力,这仍需通过多模态模型和代理来解决。

在这里插入图片描述
图 25:使用视频微调版本的 InstructBLIP 的示例提示和响应(方法见第 6.5 节)。我们的模型能够生成描述场景的长文本响应,并能够回答与视频中事件时间顺序相关的问题。

    指令微调的模型在准确总结视频中的可见动作和识别诸如“人在长凳上坐着”之类的动作方面显示出希望(如图25所示)。然而,它们有时会添加错误的细节,例如“人对着镜头微笑”,这暴露了在捕捉对话主题或视频氛围方面的不足,这些元素对于人类观察者来说是显而易见的。这一缺陷突显了另一个关键限制:缺少音频和语音模态,而这些模态的加入可以通过提供更多上下文信息来丰富视频理解,帮助更准确地解读内容并防止此类误解。弥合这一差距需要整合可用的所有模态,使多模态代理能够达到接近人类感知的理解水平,从而确保视频解读的全方位多模态方法。

在这里插入图片描述
图 26:第 6.5 节中描述的音频多模态智能体。虚构内容以红色高亮显示。我们使用 GPT-4V 生成以下内容:1)带有视频帧的聊天摘要;2)带有帧字幕的视频摘要;3)结合帧字幕和音频信息的视频摘要。

在这里插入图片描述
图 27:一种交互式多模态智能体,结合视觉、音频和文本模态进行视频理解。我们的流程挖掘困难的负面虚构内容,以生成用于 VideoAnalytica 挑战的复杂查询。交互式音频-视频-语言智能体数据集的更多相关细节在第 9.2 节中描述。

    音视频语言代理与 GPT-4V。我们将 GPT-4V 作为多模态代理进行评估,结合视觉、音频和语音,以实现对视频的细致准确理解,遵循(Lin 等人,2023)的方法。图26展示了各种视频代理在视频总结任务上的表现。经过视频指令调整的模型(Li 等人,2023g)内容准确,但在全面性和细节上有所欠缺,漏掉了一些具体动作,例如用扫帚测量树高的步骤。

    为了提升视频描述的准确性,我们使用 GPT-4V 为帧生成标题,并从 OpenAI 的 Whisper 模型中获取音频及其转录文本。接着,我们提示 GPT-4V 创建视频总结,先仅使用帧标题,再结合帧标题和音频转录。最初,我们发现单独使用帧标题可能会引发虚构情节,例如在第三段出现“咬住棍子”的情节。这些误差持续影响视频总结,导致描述变成“他以戏谑的方式横向咬住棍子”。没有音频输入时,代理无法纠正这些标题错误,虽然语义上正确,但在视觉上具有误导性。

    然而,当我们向代理提供音频转录后,它能够准确地刻画内容,甚至捕捉到详细的物理动作,例如“将扫帚垂直于身体握住,并向下旋转”。这一细节大大增加了信息量,使观众对视频的意图和关键细节有更清晰的理解。这些发现突显了音频、视频和语言交互在开发高质量多模态代理中的重要性。GPT-4V 被证明是这种高级多模态理解和交互的有前景的基础。

具身多模态代理与 GPT-4V。如图27所示,我们主要使用 * 获取初始问题,然后通过“Bing 搜索”API检索与问题相关的视频和音频。接下来,我们主要利用 GPT-4V 获取相关文本信息和高层次视频描述。同时,将关键帧的音频转化为关键帧的低层次片段描述,通过 ASR(自动语音识别)实现。最终,我们使用 GPT-4V 生成具有说服力的“幻觉”,作为视频问答任务中的难负面查询。在当前视频帧内,我们支持交互和问答功能,并提供整体高层次视频描述的总结。在推理过程中,还通过网络搜索结合外部知识信息,以增强回答能力。

    GPT-4V 主提示信息的描述如下。为了便于理解,整个提示内容进行了缩进,总长度超过一页。GPT-4V 的任务是为能听到但无法观看视频的视障人士提供描述性、信息丰富且全面的详细视频内容。工作目标是通过综合给定的注释,以 JSON 格式输出高质量、密集的描述。具体来说,GPT-4V 将接收用于搜索视频的原始查询、视频标题、描述、音频转录,以及视频中特定时间点的噪声描述。视频的不同片段按“[开始时间 - 结束时间(以秒为单位)] ‘文本’”的格式进行注释。GPT-4V 将整合或分割时间戳,以提供最佳的视频分段描述。

对 GPT-4V 输出的期望如下:

  1. 以动作为主的描述:优先描述合理的动作、运动及音频暗示的物理演示,并通过动态的视觉提示丰富叙述。
  2. 覆盖整个视频:提供一个持续、一致的音频描述体验,覆盖视频的每一刻,确保内容完整无遗漏。
  3. 简洁分段:将描述构建为简洁、聚焦的 1-2 句段落,有效传达视觉动作而不过于详细。
  4. 上下文音视频融合:将口述内容与推测的视觉元素无缝融合,形成反映视频中潜在活动的叙述。
  5. 富有想象力且合理的推测:通过创造性但可信的视觉细节丰富描述,增强对场景的理解。
  6. 精确的时间码对应:确保描述段落与时间码对齐,使推测的视觉细节与音频叙述的时间线同步。
  7. 自信的叙述方式:以确信的语气呈现描述,仿佛推测的视觉效果确实正在发生,增强听众的信任感。
  8. 排除不合理的细节:剔除那些与音频和视觉信息上下文不符的对象或事件描述。
    最终输出应以 JSON 格式呈现,包含一系列字典,每个字典详细描述视频的一个片段:
[{
"start": <开始时间(秒)>,
"end": <结束时间(秒)>,
  "text": "<详细的一句视听描述>"
}]

    多项选择题生成:我们还负责生成用于视频到文本检索任务的多项选择问题,这些问题仅通过查看标题和阅读音频转录文本无法轻松解决。我们将提供视频的原始查询、描述、音频转录文本,以及视频中特定时间段的噪声描述。音频转录的格式为:-[开始时间-结束时间(秒)] “转录文本”。噪声描述的格式为:-[时间(秒)] “描述”。

    请 GPT-4V 生成四个查询,其中主查询与视频内容对齐,其他三个为微妙不同的干扰项。主查询的选择应基于视频而非单纯的音频转录。干扰项应与视频内容紧密相关但不完全匹配,要求对视频有一定的理解才能区分。例如,可以细微地调整语义,使人需要观看视频才能选择原始查询。

生成格式:
• 视频分析:xxx
• 查询:[query1, query2, query3, query4]
• 解释:xxx

    NLP代理的改进方向:

  1. 工具使用和知识库查询:通过外部知识库、网络搜索等提升 AI 代理的推理能力。
  2. 增强代理的推理与规划:改进代理理解复杂指令和预测未来场景的能力。
  3. 整合系统与人类反馈:通过系统和人类的反馈不断学习和优化,确保代理适应用户需求。

通用 LLM 代理

    识别和理解代理内容及自然语言在交互式 AI 和自然语言处理领域长期以来一直是根本性挑战。随着深度学习的进步,越来越多的研究将这两个领域结合起来,以深度理解代理的规划、人类反馈、知识推理及自然语言生成。这些是许多人人机交互代理的关键组件,如“AutoGen”(Wu 等,2023)和“Retrieve What You Need”(Wang 等,2023g)。

指令跟随型 LLM 代理

在这里插入图片描述

图 28:用于训练 Alpaca 模型(Taori 等, 2023)的训练方法。概括而言,现有的大语言模型(LLM)被用于从一小组种子任务中生成大量的指令跟随示例。生成的这些指令跟随示例随后用于对一个可获取底层模型权重的 LLM 进行指令微调。

    指令跟随型 LLM 代理的创建成为研究热点,旨在训练能够有效遵循人类指令的代理。早期模型通过一种称为人类反馈强化学习(RLHF)的方法,用人类反馈训练一个代理奖励模型,模拟人类偏好(Ouyang 等,2022)。该方法产生了 InstructGPT 和 ChatGPT 等模型。为提高训练效率,研究人员开发了无需人类标签的指令调优方法,通过人工生成或由其他 LLM 自动生成指令/响应对直接训练 LLM 代理,如 Dolly 2.0 或 Alpaca(Taori 等,2023)。图28展示了 Alpaca 训练流程。

实验与结果

    尽管对话和自我反馈系统逐渐普及,这些 AI 仍难以从其隐含知识中生成事实正确的响应,通常在推理时使用外部工具如网络搜索和知识检索机制来增强响应。解决此问题将提升许多现实应用中的用户体验。在社交平台(如 Instagram 和 Facebook)或问答网站(如 Ask 或 Quora)中,人们通常通过评论交流并通过网络搜索获取相关知识。因此,在此情境中生成对话轮次不仅依赖传统 NLP 模型,还需代理生成具有知识搜索和获取行为的对话(Peng 等,2023)。因此,用于 NLP 任务的智能代理通过在对话中添加知识检索步骤来扩展任务描述并提升响应的可解释性。

在这里插入图片描述

图 29:逻辑 Transformer 智能体模型(Wang 等, 2023e)。我们将逻辑推理模块集成到基于 Transformer 的抽象总结模型中,以赋予逻辑智能体对文本和对话逻辑进行推理的能力,从而生成更高质量的抽象总结,并减少事实性错误。

    将这些搜索和检索代理作为反馈纳入对话中,有助于进一步深入社交互动(Wang 等,2023e)。如图29所示,我们提出了一种新的建模范式,用于从输入文本中检测并提取重要逻辑结构,并通过精心设计的多层层次逻辑投影将其融入输入嵌入中,从而在预训练语言模型中引入逻辑结构,作为一种 NLP 代理。(Wang 等,2023e)提出了一种新颖的方法,通过逻辑检测、逻辑映射和层次逻辑投影构建面向逻辑的输入嵌入,然后开发一种新的建模范式,将所有现有的 Transformer 语言模型升级为逻辑 Transformer,以持续提升其性能。所提出的逻辑 Transformer 代理比基线 Transformer 模型表现更优,能够更深入地理解文本的逻辑结构。对于人类用户来说,这些逻辑结构更有助于代理协调对话与信息检索,从而提供有意义且有趣的对话。

在这里插入图片描述

图 30:提出的 NLP 智能体互学框架的架构(Wang 等, 2023g)。在每个训练周期中,交替执行阶段 1 和阶段 2。在阶段 1 中,阅读器模型的参数保持不变,只有知识选择器的权重被更新。相反,在阶段 2 中,调整阅读器模型的参数,而知识选择器的权重保持不变。

    开放领域问答(QA)系统通常采用“检索-阅读”模式,其中检索器用于从大型语料库中提取相关段落,然后阅读器根据提取的段落和原始问题生成答案。(Wang 等,2023g)提出了一种简单的新型互学习框架,通过称为知识选择器代理的中间模块来提高“检索-阅读”模型的性能,并通过强化学习对其进行训练。知识选择器代理在检索-阅读范式中构建一个包含问题相关信息的小段落集合。图30展示了我们创新的互学习框架,将知识选择器代理作为框架组件,并采用策略梯度优化方法,以阅读器的反馈训练知识选择器代理以选择一小部分信息丰富的段落。这种方法避免了穷举搜索或手动设计的启发式方法,无需带注释的查询-文档对用于监督。通过迭代训练阅读器和知识选择器代理,我们在一些开放领域问答基准上实现了更好的预测性能。