EgoPlan-Bench2: 包含1321个高质量的多选题问答对，覆盖工作、日常生活、爱好和娱乐四大领域，共24个详细场景

2024-12-06，由香港大学与腾讯PCG的ARC实验室联合创建了EgoPlan-Bench2数据集，这个数据集通过模拟人类日常生活中的复杂任务，为多模态大型语言模型（MLLMs）的规划能力提供了一个严格和全面的评估平台，对于推动人工智能向通用智能发展具有重要意义。

数据集地址：EgoPlan-Bench2|多模态大语言模型数据集|规划能力评估数据集

一、研究背景：

随着多模态大型语言模型（MLLMs）的发展，它们在理解和推理能力上已经展现出了卓越的性能。然而，要实现人工通用智能（AGI），仅靠理解和推理是不够的，有效的规划能力同样至关重要。这种能力涉及到在复杂环境中做出合理决策，解决现实世界的问题。

目前遇到困难和挑战：

1、现有MLLMs在多样化场景中的规划能力尚未得到充分探索，留下了对它们全面潜力理解上的重大空白。

2、尽管已有基准测试评估了MLLMs的理解能力，但针对规划能力的评估仍然不足。

3、缺乏一个涵盖多种现实世界场景的全面基准，以评估MLLMs作为多面手助手的潜力。

数据集地址：EgoPlan-Bench2|多模态大语言模型数据集|规划能力评估数据集

二、让我们来一起看一下EgoPlan-Bench2

EgoPlan-Bench2是一个旨在评估MLLMs在现实世界多样化场景中规划能力的严格和全面基准。

EgoPlan-Bench2包含日常工作任务，涵盖4个主要领域和24个详细场景，与人类日常生活紧密对齐。

数据集构建：

数据集通过半自动化的过程构建，利用第一人称视角的视频，结合手动验证，确保数据的真实性和可靠性。

数据集特点：

1、任务的真实性：任务从真实世界视频中提取，更贴近日常人类需求，展示了比人为设计任务更大的多样性。

2、行动计划的多样性：涉及与数百种不同对象的互动，超出了基本的操作技能，如拿起和放置物品。

3、视觉观察的复杂性：视觉输入来自各种真实世界场景，对象在外观、状态和放置上有所不同。此外，视觉输入可以跨越广泛的时间，使得监控任务进度和检测对象状态的关键变化变得具有挑战性。

基准测试：

评估了21个竞争性的MLLMs，包括专有和开源模型，揭示了现有MLLMs在规划任务方面面临的重大挑战。

左：EgoPlan-Bench2 包含跨越四个主要领域的规划任务和 24 个详细场景，用于评估 MLLM 在不同实际环境中的规划能力。右：我们的多项选择问答对示例，其中给出了显示历史任务进度的部分视频、当前观察图像和以语言表示的任务目标，供模型选择最合适的操作。

图 2：EgoPlan-Bench2 的半自动数据集构建管道概述。第一阶段：任务目标提取，GPT-4 使用分层提取和分解策略从视频旁白中总结任务目标，并进一步过滤以消除过于复杂的任务。阶段 II：多项选择 QA 生成，其中使用预定义模板根据任务目标和相应的操作序列生成多项选择题。利用基础模型选择合适的图像作为视觉观察（即，显示任务进度的视频结尾）。第三阶段：模型和人工验证，进行模型验证以加强多模态评估能力，并聘请人工注释者来保证 EgoPlan-Bench2 的可靠性和客观性。

自适应观测选择方法的管道。围绕 groundtruth 操作时间戳的几个帧被裁剪为候选帧。然后使用 GPT-4 和 InternVL-1.5 来验证每个候选帧是否合格。在此示例中，选定的候选帧包含下一个操作所需的所有对象，满足第二个条件。但是，由于 InternVL-1.5 可以在没有历史任务进度信息的情况下正确预测即将到来的操作，因此此帧无法满足第一个标准，因此应丢弃。

左：EgoPlan-Bench2 的场景分布，涵盖 4 个主要领域和 24 个细粒度场景。右：视频长度分布。我们的基准测试具有完整的视频持续时间范围，从几秒到 5 分钟不等。

三、让我们一起展望数据集应用场景

比如，你是一个机械维修工程师，正在处理一个工厂内的机械故障。你的任务是通过观察和理解机械的当前状态，以及考虑到已经进行的维修步骤，来决定下一步最合适的行动。

此时，你站在一台停止运转的机器前，这台机器因为一个未知的故障而停止工作。你的工作是从第一人称视角，通过观察和分析，确定下一步应该执行的维修动作。

任务目标

“修复机器以恢复其正常运转。”

视频和图像数据

视频进度：视频显示了你之前进行的一些维修步骤，包括检查机器的外部，打开机器的外壳，检查内部的零件，以及更换了一些可疑的损坏部件。
当前观察帧：当前的观察图像显示了机器内部的一个特定区域，其中有一组齿轮和轴承。你注意到其中一个齿轮似乎卡住了，而且轴承周围有油迹。

多项选择问题

考虑到视频显示的进度和当前的观察，你接下来应该采取什么行动来修复机器？

A. 继续检查机器的其他部分，寻找可能的故障点。 B. 尝试用手转动卡住的齿轮，看是否可以使其重新运转。 C. 清洁轴承，并检查是否有损坏需要更换。 D. 重新组装机器外壳，进行测试运行。

正确答案

正确答案是C：“清洁轴承，并检查是否有损坏需要更换。” 这个选择是基于当前观察到的齿轮卡住和油迹，表明轴承可能存在问题，需要清洁和检查。

这个案例展示了EgoPlan-Bench2数据集中的一个典型应用场景，即如何利用第一人称视角的视频和当前的视觉观察来指导MLLMs进行有效的规划和决策。在这个机械维修的场景中，模型需要理解视频内容，识别当前的问题，并基于这些信息做出合理的决策。这不仅测试了模型对视觉信息的理解能力，还考验了其逻辑推理和规划能力，这对于实现更高级别的人工智能任务至关重要。

更多开源数据集，请打开：遇见数据集

遇见数据集-让每个数据集都被发现，让每一次遇见都有价值遇见数据集，国内领先的百万级数据集搜索引擎，实时追踪全球数据集市场，助力把握数字经济时代机遇。https://www.selectdataset.com/

秒客网