3DIoUMatch: Leveraging IoU Prediction for Semi-Supervised 3D Object Detection

时间:2024-02-24 11:24:03

3DIoUMatch: Leveraging IoU Prediction for Semi-Supervised 3D Object Detection

论文链接:https://arxiv.org/pdf/2012.04355.pdf
代码链接:https://github.com/yezhen17/3DIoUMatch
作者单位:Stanford University等
发表平台:CVPR 2021

1. 摘要(Abstract)

     半监督领域伪标签存在问题:

  • 只使用teacher network预测出的pseudo-label并不准,含噪太多,根本没法训练
    • 分类得分进行过滤,还是含噪太多;
    • 基于IoU的定位难点是难以设置合适的阈值。如果阈值太低,噪声过多;如果阈值太高,保留下来的pseudo label太少,不利于训练

2. 相关工作(Related Work)

3. 文章主体

     因此,作者提出了一种two-stage的过滤策略:输入label和unlabel data → label data直接送入student network,unlabel data送入teacher network得到pseudo label → labels 和pseudo labels用于监督student训练,如下图。

在这里插入图片描述

  • 如何对indoor和outdoor scene同时有效:
    • 分别采用了两个不同的框架处理不同场景的任务,利用VoteNet处理indoor scene,利用PV-RCNN处理outdoor scene
  • 生成高质量的pseudo label:直接只用pseudo label或者只利用classification进行过滤,并不能取得好的效果。因此,尝试引入IoU作为localization score。基于IoU的过滤可分为两个阶段(two-stage):
    • 第一阶段:用一个比较低的IoU阈值进行第一次过滤,但是过滤完依然会存在大量的重复框
    • 第二阶段:利用改进的NMS去除重复框。这里作者有两点考量:
      • 1.作者认为通用的NMS仅仅使用了object score而忽略了localization score,因此不太准;
      • 2.作者认为并不用完全去除重复框,因为过于苛刻的阈值设计会导致pseudo label特别少从而影响student network的训练。所以,作者考虑了一种lower-half suppression,其实就是把重复框按照分类得分和定位得分去除一半。

4. 实验效果

定量结果

  • 在ScanNet和SUN RGB-D上的结果
    在这里插入图片描述

  • 在KITTI数据集上1% labeled的结果

在这里插入图片描述

消融实验

可视化结果

在这里插入图片描述

在这里插入图片描述