Open World Object Detection in the Era of Foundation Models

时间:2024-03-24 10:51:34

Open World Object Detection in the Era of Foundation Models

    • 摘要
    • 介绍
    • 相关工作
      • 开放词汇物体检测
      • 开放世界目标检测
      • 类无关的目标检测
    • 3.真实世界目标检测基准
      • 3.1 数据集细节
      • 3.2 基准架构
      • 3.3 什么是一个未知对象
    • 4. 利用基准模型用于开放世界目标检测
      • 4.1 背景
      • 4.2 属性生成
      • 4.3 属性选择和微调
      • 4.4 未知类的推理
    • 5 实验
      • 5.1 基准模型基于存在的开放世界目标检测
      • 5.2 真实世界的目标检测
      • 5.3 选择属性研究
      • 5.4 消融实验
    • 6.总结

摘要

物体检测对于众多实际应用至关重要,从机器人技术到医学图像分析。为了在这些应用中可靠地使用,模型必须能够处理意外的或新颖的物体。开放世界物体检测(OWD)范式通过使模型能够检测未知物体并逐步学习已发现的物体,来解决这一挑战。然而,由于严格的基准和任务定义,OWD方法的开发受到了阻碍。这些定义有效地禁止了基础模型。在这里,我们的目标是放宽这些定义,并研究在OWD中使用预训练的基础模型。首先,我们发现现有的基准测试对于评估使用基础模型的方法是不足够的,因为即使是最简单的集成方法也几乎可以饱和这些基准测试。这个结果激励我们为这些模型策划一个新的、具有挑战性的基准测试。因此,我们引入了一个新的基准测试,包括五个实际应用驱动的数据集,包括如航空和手术图像等具有挑战性的领域,并建立了基线。我们利用应用驱动数据集中类别之间的内在联系,引入了一种新的方法,即开放世界的基础物体检测模型(FOMO),该模型基于与基础已知物体的共享属性来识别未知物体。FOMO在我们的基准测试中,与基线相比,未知物体的mAP提高了约3倍。然而,我们的结果表明还有很大的改进空间,这表明在将物体检测方法进一步扩展到实际世界领域方面,存在着巨大的研究机会。我们的代码和基准测试可以在以下网址找到:https://orrzohar.github.io/projects/fomo/。

介绍

物体检测是计算机视觉任务的基础,应用于各种领域,如自动驾驶[20],机器人技术[3, 33],和医学[6, 13]。为了确保在面对新环境和未知物体时能够进行可靠的检测,开放世界物体检测(OWD)最近被提出作为一项实用的计算机视觉任务[11]。OWD扩展了检测方法超越封闭集的假设,需要检测已知/预期的物体和未知/新颖的物体。它还挑战它们使用有限的监督逐步学习以前未知的物体。在这个设置中表现优秀的模型应该展示出对未知物体的强大检测能力和对已发现物体的灵活学习能力[10, 11, 19, 36]。人们期望OWD的进步将导致检测方法在应用中的更广泛适应。

确保OWD任务的进步真正转化为更可靠的实际检测方法是至关重要的。然而,现有的OWD基准定义与最先进的基于基础模型的检测方法之间存在差异。一方面,已建立的OWD基准是从COCO数据集中改编的,只包含80个日常类别[16]。现有的OWD基准将这些类别的一部分的类标签隐藏起来,并将它们视为“未知”。然而,我们是否应该期望一个“长凳”对于基础检测模型来说是一个未知的对象(参见图1)?并且,改进检测这样简单的类别作为未知的能力是否确实会使基础检测方法更可靠?另一方面,这些检测方法是在大型数据集上训练的,并在更大规模上使用图像级别的预训练。

利用基础模型进行物体检测已经显示出了巨大的潜力,具有强大的性能和能力。通常,利用基础模型的物体检测模型会在进行检测的微调之前,使用像CLIP [26]这样的预训练视觉-语言模型(VLMs)。因此,很难确定模型接触到特定物体的程度 - 这使得将这些方法整合到原始的OWD任务中变得不可能 - 这激发了对新基准的需求。许多基础模型 - 即开放词汇物体检测模型 - 通过“文本条件”物体检测超越了封闭集的假设。这种方法试图通过对齐的多模态嵌入,使用它们的类名来识别训练数据中不存在的物体。然而,这些方法并未试图检测新颖/意外的物体。

为了在实际应用中可靠地使用基于基础模型的物体检测方法,我们认为必须整合开放世界物体检测的概念。因此,我们开始测试这些模型在现有OWD基准上的表现。我们利用了Maaz等人[21]介绍的最小化方法,如使用通用提示来检测未知物体。在对OWD基准进行评估后,我们发现即使是简单的基础模型基线也几乎可以饱和这些基准。因此,我们策划了一个新的基准,它结合了来自多个实际应用的多个数据集,包括水下、航空和医疗领域(见图1)。

在此,我们引入了开放世界的基础物体检测模型,或称为FOMO,它利用基础物体检测模型来检测未知物体。具体来说,FOMO学习检测物体属性,并使用少量物体示例将这些属性映射到已知物体。为此,FOMO利用少量物体示例来选择和精炼大型语言模型最初提出的属性嵌入。在大多数实际应用中,我们发现未知物体与基类共享视觉/功能属性[27]。与以前的OWD方法不同,我们识别的未知物体在属性上是分布内的,但在已知类别上是分布外的。我们的贡献可以总结如下:

  1. 我们首先展示,当评估利用基础模型的方法时,现有的OWD基准是不足够的 - 通过显示即使是简单的实现也几乎可以饱和性能,达到69.0的U-Recall和55.5的最终已知mAP。
  2. 我们策划了一个新颖且具有挑战性的应用驱动的开放世界物体检测基准,包括来自实际应用和领域的数据集,包括水下、航空和医疗领域。
  3. 我们引入了FOMO,它利用预训练的基础模型来根据已知类属性检测未知物体。
  4. 我们在这个基准上对FOMO进行了实证验证,与基线相比,显示出至少8%的已知mAP和3倍的未知mAP的改进。
    在这里插入图片描述
    图1. “长颈鹿”和“长凳”应该被视为未知物体吗?
    现有的开放世界检测基准主要基于COCO数据集(如左图所示),该数据集包含了日常环境中最常见的物体。这种设置也限制了基于基础模型的最先进检测方法的使用,因为这些模型没有接受过这些物体的广泛监督,这是不合理的。本工作提出了一个新的应用驱动的基准(如右图所示),该基准对这些基础模型来说是分布外的(见第3节)。更重要的是,这使我们能够探索使用现代基础模型的方法。

相关工作

在本节中,我们将讨论与开放世界中基于基础模型的对象检测相关的三个任务:开放词汇表、开放世界和与类无关的对象检测。

开放词汇物体检测

开放词汇物体检测(Open-Vocabulary Object Detection,OVD)是首个在物体检测中利用基础模型的领域。自OVD基准[32]提出后,已经出现了许多方法。ViLD [9]通过对现成的区域提议网络提出的裁剪图像区域的嵌入进行蒸馏,学习物体检测模块。RegionCLIP [34]修改了预训练阶段,以考虑区域信息,同时利用预训练的视觉-语言模型(VLMs)。与上述方法相比,最近的方法如OWL-ViT [23, 24]和FVLM [12]通过利用现有的公开物体检测数据集来学习检测模块,性能可以得到大幅提升。然而,上述研究并未解决这些模型检测相关未知物体的能力问题,就像在开放世界物体检测中所讨论的那样。据我们所知,我们的工作是首个将OVD方法扩展到开放世界的工作。

开放世界目标检测

Joseph等人最近引入的开放世界对象检测(OWD)任务已经引起了广泛的关注,这是由于其可能的实际影响。他们的工作引入了ORE,它采用了更快的RCNN与特征空间对比聚类,一个基于RPN的未知检测器,以及一个基于能量的未知标识符(EBUI)来实现OWD目标。[31]试图通过将特征聚类的数量设置为类别的数量,从而减少已知和未知类别在嵌入特征空间中的重叠分布,来扩展ORE,从而减少已知和未知对象之间的混淆。同时,[36]试图通过引入概率性的对象性和修改的推理方案,来扩展可变形的DETR模型。尽管这些模型具有潜力,但在OWD中,基础模型大都被忽视,这与OVD范式不同。随着研究的进展,预计使用预训练的基础模型进行对象检测的倾向将超过从头开始的传统训练模型。我们的工作调查了在OWD任务中使用基础模型的情况,强调检测相关的未知对象。

类无关的目标检测

在开放世界对象检测任务中,一个关键的方面是学习检测“未知”对象,这要求模型获取通用对象性的概念。类别不可知的对象检测任务明确地调查了对象检测模型的这种能力。在类别不可知的对象检测范式中,模型的目标是准确地检测和定位对象,而不给它们分配类别标签。最近针对类别不可知的对象检测任务的一种方法,MAVL [21],基于已经显示出优秀的对象检测能力的多模态视觉变换器(MViTs)。在对一组对齐的图像-文本对进行训练后,结果模型通过使用直观的提示,如"所有对象",实现了令人印象深刻的类别不可知的对象检测性能。受此启发,我们提出的基线方法通过使用MAVL风格的提示来扩展OWL-ViT,以进行“未知”检测。有趣的是,[21]观察到他们的模型在推广到真实世界领域,如医学图像(他们的App. B)时,遇到了困难。

3.真实世界目标检测基准

开放世界对象检测的目标是开发在真实世界中表现稳健的方法 - 特别是,检测未知对象,并在分类后逐步学习它们。现有的OWD基准试图通过重新利用流行的数据集(如COCO),隐藏一部分类别的类别标签,从而引入未知对象(例如,如图1所示的’长凳’)来模拟这样的环境。虽然最初这被视为是开发真实世界检测方法的实用基准,但这些基准偏离了它们的原始目的。首先,它们是不现实的,因为所说的’未知’是大多数现代检测方法可以很好地检测的常见日常对象。其次,已知和未知之间的任意划分并不能模仿真实的应用。在一个真实的检测任务中,如检测动物,未知的类别应该与已知的类别有上下文的关联。无需地检测许多其他无关的对象,使得’未知’对象的检测变得无关紧要。最后,由于有一个不现实的基准,导致必须遵守什么被认为是未知的,这有效地限制了基础模型的结合。

当我们在现有的OWD基准上评估基础模型时(参见第5.1节),它们的性能实际上已经饱和。然而,正如我们稍后将展示的(参见第5.2节),当这些模型在真实世界的应用数据集中受到挑战时,它们会失败。这启发我们策划了真实世界对象检测(RWD)基准,该基准通过选择具有多样化领域和内容转换的应用驱动数据集,挑战利用基础模型的OWD方法。在第3.1节中,我们介绍了构成基准的不同数据集和应用。在第3.2节中,我们详细介绍了基准本身的构建。我们提出的评估重点关注少镜头/低数据设置,承认大多数应用无法收集到传统基准的规模的数据集。最后,在第3.3节中,我们解释了我们的OWD基准和以前的OWD基准之间在“未知对象”的定义上的根本区别。与基于像COCO这样的广泛使用的数据集的基准不同,RWD基准是应用驱动的,并通过结合开放世界概念,更好地反映了真实世界的场景。更多信息,请参见补充部分A。
在这里插入图片描述
表1。数据集的详细信息。类和图像的数量。详情见A节。

3.1 数据集细节

我们从Roboflow 100 (RF100) [4]中的多样化数据集中,选择性地使用了三个不同的数据集:Aquarium、Team Fight Tactics和X-ray Rheumatology。这些数据集在CVPR 2023的CVinW研讨会上展示,因其在真实世界中的适用性而受到关注。

Aquatic(Aquarium)数据集包含了不同海洋生物的水下图像,可能用于水下应用。Game(Team Fight Tactics)数据集包含了包含不同头像的游戏快照,用于评估在合成数据上的性能。Medical(X-ray Rheumatology)数据集包含了需要检测不同骨头的手部X光图像,应用于检测关节炎、骨折和手部的结构异常。

Aerial数据集是从DIOR数据集[14]中策划的,包含了体育场/存储容器的航空图像,可以用于卫星成像/智能的应用。Surgery数据集取自NeuroSurgicalTools数据集[2],由神经外科显微镜捕获,包括各种外科工具。
表1有每个数据集的类别数量和数据集大小的细分。更多信息,请参见补充部分A。

3.2 基准架构

RWD基准包含五个现有的应用驱动的对象检测数据集。每个数据集的类别被划分为两个子集:50%最常见和最不常见的类别。方法在两个阶段进行评估:任务1(T1)和任务2(T2)。在T1中,只有50%最常见的类别被认为是已知的,而50%最不常见的类别对模型来说仍然是未知的。这种设计选择得到了与开放世界工作相关的充分动机,它将其作为长尾范式的扩展[17, 18]。在这个阶段,模型预计会检测已知和未知的对象。这个评估阶段测试了对象检测器检测新颖/未知对象的能力。在T2中,剩下的50%最不常见的类别被揭示,模型根据它们在已知类别集合上的性能进行评估。这种评估关注的是少镜头/低数据设置,承认大多数应用无法收集到传统基准的规模的数据集。最后,在第3.3节中,我们解释了我们的OWD基准和以前的OWD基准之间在“未知对象”的定义上的根本区别。与基于像COCO这样的广泛使用的数据集的基准不同,RWD基准是应用驱动的,并通过结合开放世界概念,更好地反映了真实世界的场景。更多信息,请参见补充部分A。

3.3 什么是一个未知对象

以前的OWD方法只报告了未知召回率(U-Recall),因为对象的概念定义得很模糊。U-Recall本质上是有缺陷的,因为它没有权衡未知对象预测的准确性。与以前的工作不同,我们明确定义了需要检测的对象 - 那些为任务保留的对象。由于RWD只包含真实世界的应用数据集,所以类别本质上是相关的,未知对象与已知的基类共享一些视觉或功能属性。这使得只预测保留的对象更加可行,因此,我们采用使用mAP。

4. 利用基准模型用于开放世界目标检测

开放世界对象检测模型,或者称为FOMO,直接在开放世界对象检测(OWD)设置中使用基础模型(参见图2)。第4.1节提供了必要的背景信息。以前的OWD方法从未明确定义过“未知对象”,这导致了“所有”对象都是候选未知对象的广泛声明。这引出了本文的一个核心问题:“我们能否从给定的已知类别推断出未知对象是什么?”受到Rosch和Mervis [27]的开创性心理学研究的启发,他们将对象描述为“形成自然间断的信息丰富的属性束”,我们通过推理已知类别的属性来重新定义检测未知对象。

FOMO试图通过识别与基类共享视觉和/或功能属性的对象来检测未知对象。在第4.2节中,我们介绍了FOMO如何首先利用大型语言模型来识别目标应用的可能属性。由于这些属性是类别不可知的,所以属性和已知对象分类之间不存在明确的映射。因此&#x