KnowIT VQA:Answering Knowledge-Based Questions about Videos心得体会

时间:2025-02-19 19:18:11

前段时间看了movieQA相关论文后,想要继续了解关于videoQA的相关知识,所以找到了这篇《KnowIT VQA:Answering Knowledge-Based Questions about Videos》。提出了一个新的数据集,用于视频中基于知识的视觉问题解答,并提出了一种视频推理模型,其中将多模式视频信息与有关任务的特定知识结合在一起。
文章链接:KnowIT VQA:Answering Knowledge-Based Questions about Videos
代码链接:/noagarcia/knowit-rock
一、文章引入
1.1 VQA存在的两个重大局限性

  1. 图片特征只能体现静态信息,忽略了时间的连贯性(temporal coherence)。
  2. 视觉内容本身有时不能提供回答问题所需的全部信息。

为了解决这些局限性,视频问答(VideoQA)和基于知识的视觉问答通过提出特定的数据集和模型而独立出现。但是,仍然缺少用于解决VQA中多问题类型的通用框架。
文中提出了一个通用的框架(general framework)将VideoQA和KBVQA结合,回答该数据集的问题不仅需要对视频的理解,也需要知识的推理。此外,论文还提出了一个解决该问题的两步模型(two-piece model): 1.获取、处理并将特定的知识映射到一个连续的表示中。2.将视频和语言内容与获得的知识以一种多模态的方式融合在一起来预测答案。
二、KnowIT VQA 数据集
该视频数据集将基于知识的问题和视觉、文本和时间一致性推理结合了起来,这些问题需要从观看系列节目中获得的经验来回答。此数据集所有视频均是从生活大爆炸中片段截取得到。
2.1 Video Collection
数据集来自生活大爆炸的前九集,共207集,每集20min左右。 收集了字幕(subtitles),和文字记录(transcripts)。字幕是用时间信息标注的,而文字记录将对话与角色联系起来。transcripts还包含场景信息,用于将每一集分割成视频场景。数据集将场景统一分割为20秒的片段(clip),共得到12264个片段。
2.2 QA Generation
作者使用了AMT。让对《生活大爆炸》比较了解的工作人员去编写knowledge-based questions,目标是提出一些只有熟悉该电视剧的人才能回答的问题,但对于新观众而言很难。工作人员被要求用一个问题、与之对应的正确答案和 三个错误但相关的答案来注释每个clip。
2.3 Knowledge Annotations
作者将知识定义为不包含在给定视频片段中的信息。在数据集中,他们对每一个QA pair都进行了以下注释:

  1. KNOWLEDGE: 回答问题所需要的信息.
  2. KNOWLEDGE TYPE: 记录该知识是来自于哪一集中,或者在该剧中反复出现。从下图可以看出分布趋势: