【实时建图】MapTR(1)------ 论文详解

时间:2024-10-25 08:21:52

作者们提出了一种有效构建高清地图的方法(MapTR),该地图为自动驾驶系统的规划提供丰富且精确的环境信息。这是一种结构化端到端变换器,用于高效在线矢量化地图构建。作者提出了一种统一的置换等价建模方法,即将地图元素建模为一个具有一组等价置换的点集,这准确地描述了地图元素的形状并稳定了学习过程。他们设计了一种分层查询嵌入方案,以灵活地编码结构化地图信息,并对地图元素学习进行分层二分匹配。在nuScenes数据集上,与现有的基于相机输入的矢量化地图构建方法相比,MapTR实现了最佳性能和效率。特别是,MapTR-nano在RTX 3090上以实时推理速度运行(25.1 FPS),比现有的最先进的基于相机的方法快8倍,同时实现了5.0倍的mAP提高。与现有的最先进多模态方法相比,MapTR-nano实现了0.7倍的mAP的提高,而MapTR-tiny实现了13.5倍的mAP的提高和3倍的推理速度。丰富的定性结果显示,MapTR在复杂和各种驾驶场景中保持了稳定且鲁棒的地图构建质量。MapTR在自动驾驶领域具有重要的应用价值。

代码:/hustvl/MapTR

论文:/pdf/2208.14437

一 相关介绍

高清地图(HD地图)是专门为自动驾驶而设计的高精度地图,由地图元素的实例级别的矢量化表示(包括行人横道车道分隔线道路边界等)组成。HD地图包含了道路拓扑和交通规则的丰富语义信息,这对自动驾驶车辆的导航至关重要。

传统上,高清地图(HD地图)是通过基于SLAM(同时定位与地图构建)的方法(Zhang&Singh,2014年; Shan&Englot,2018年; Shan等,2020年)离线构建的,这导致了复杂的流程和高昂的维护成本。最近,越来越多的关注点转向了在线高清地图的构建,它可以利用车载传感器在运行时围绕自车构建地图,从而省去了离线人工操作。

早期的研究(Chen等,2022a; Liu等,2021a; Can等,2021年)利用线形先验知识,基于前视图像来感知开放形式车道。然而,它们受限于单视角感知,无法处理具有任意形状的其他地图元素。随着俯视图BEV的发展,最近的研究(Chen等,2022b; Zhou&Kr¨ahenb¨uhl,2022年; Hu等,2021年; Li等,2022c年)通过进行BEV语义分割来预测光栅化地图。然而,光栅化地图缺乏矢量化的实例级信息,例如车道结构,这对于下游任务(例如运动预测和规划)很重要。为了构建矢量化的HD地图,HDMapNet(Li等,2022a年)将像素级别的分割结果进行分组,这需要复杂而耗时的后处理。VectorMapNet(Liu等,2022a年)将每个地图元素表示为一个点序列。它采用级联的粗到精的框架,并利用自回归解码器按顺序预测点,从而导致了较长的推理时间。

目前,现有的在线矢量化高清地图构建方法在效率上受到限制,无法在实时场景中应用。最近,DETR(Carion等,2020年)采用简单高效的编码器-解码器变换器结构,实现了端到端的目标检测。

自然而然地,可以提出一个问题:是否可以设计一个类似于DETR的范式,用于高效的端到端矢量化高清地图构建?作者证明了答案是肯定的,于是提出了Map Transformer(MapTR)。(说白了,就是不需要复杂的费时的后处理过程,实现了实时地图构建)

不同于目标检测,其中目标可以很容易地几何抽象为边界框,矢量化地图元素具有更动态的形状。为了准确描述地图元素,作者提出了一种新颖的统一建模方法。将每个地图元素建模为一个具有一组等价置换的点集。点集确定了地图元素的位置置换群包括了点集的所有可能的组织顺序对应于相同的几何形状,避免了形状的歧义

基于置换等价建模,作者设计了一个结构化框架,以车载摄像头的图像作为输入,并输出矢量化的高清地图。作者将在线矢量化高清地图构建流程简化为一个并行回归问题。作者提出了分层查询嵌入,以灵活地编码实例级点级信息。所有实例和实例中的所有点都是通过统一的Transformer结构同时预测的。训练过程被形式化为一个分层集合预测任务,作者进行分层的二分匹配来依次分配实例和点。作者利用提出的点对点损失和边缘方向损失对点和边缘级别的几何形状进行监督。

凭借所有提出的设计,作者呈现了MapTR,一种高效的端到端在线矢量化高清地图构建方法,具有统一的建模和架构。在nuScenes(Caesar等,2020年)数据集上,MapTR在现有的矢量化地图构建方法中实现了最佳性能和效率。特别是,MapTR-nano在RTX 3090上以实时推理速度(25.1 FPS)运行,比现有最先进的基于相机的方法快8倍,同时实现了5.0倍的mAP提高。与现有的最先进多模态方法相比,MapTR-nano实现了0.7倍的mAP提高和8倍的推理速度,而MapTR-tiny实现了13.5倍的mAP提高和3倍的推理速度。正如可视化显示的(图1),MapTR在复杂和各种驾驶场景中保持了稳定而强大的地图构建质量。
在这里插入图片描述
图1

本文的贡献可以总结如下:

  • 提出了一种统一的置换等价建模方法,用于地图元素,即将地图元素建模为一个具有一组等价置换的点集,这准确地描述了地图元素的形状并稳定了学习过程。

  • 基于这种新颖的建模方法,设计了MapTR,一种用于高效在线矢量化高清地图构建的结构化端到端框架。作者设计了一种分层查询嵌入方案,以灵活地编码实例级和点级信息,执行地图元素学习的分层二分匹配,并利用提出的点对点损失和边缘方向损失对点和边缘级别的几何形状进行监督。

  • MapTR是首个实时且最先进的矢量化高清地图构建方法,在复杂和各种驾驶场景中都具有稳定而强大的性能。

二 相关方法

地图构建

近年来,随着2D到BEV方法的发展(Ma等,2022年),HD地图构建被定义为基于车载摄像头捕获的全景视图图像数据的分割问题。Chen等人(2022b年);Zhou和Kr¨ahenb¨uhl(2022年);Hu等人(2021年);Li等人(2022c年);Philion和Fidler(2020年);Liu等人(2022b年)通过进行BEV语义分割来生成光栅化地图。为了构建矢量化HD地图,HDMapNet(Li等人,2022a年)通过启发式和耗时的后处理将像素级语义分割结果分组,以生成实例。VectorMapNet(Liu等人,2022a年)作为首个端到端框架,采用两阶段粗到精的框架,并利用自回归解码器按顺序预测点,导致了较长的推理时间和置换的不确定性。与VectorMapNet不同,MapTR引入了新颖且统一的地图元素建模,解决了不确定性并稳定了学习过程。MapTR构建了一个结构化且并行的单阶段框架,具有更高的效率。

2.车道检测

车道检测可以视为HD地图构建的一个子任务,其重点是在道路场景中检测车道元素。由于大多数车道检测数据集只提供单视角注释,并关注开放形状元素,相关方法受限于单视角。LaneATT(Tabelini等,2021年)利用基于锚点的深度车道检测模型,在精度和效率之间取得良好的折衷。LSTR(Liu等,2021a年)采用Transformer架构直接输出车道形状模型的参数。GANet(Wang等,2022年)将车道检测构建为关键点估计和关联问题,并采用自底向上的设计。Feng等(2022年)提出了基于参数化Bezier曲线的车道检测方法。Garnett等(2019年)提出了3D-LaneNet,不是在2D图像坐标中检测车道,而是在BEV中进行3D车道检测。STSU(Can等,2021年)将车道表示为BEV坐标中的有向图,并采用基于曲线的Bezier方法从单目摄像头图像中预测车道。Persformer(Chen等,2022a年)提供了更好的BEV特征表示,并优化了锚点设计,同时统一了2D和3D车道检测。与仅在有限单视角中检测车道不同,MapTR能够感知360◦水平视野下的各种地图元素,并具有统一的建模和学习框架。

3.基于轮廓的实例分割

与MapTR相关的另一方面是基于轮廓的2D实例分割(Zhu等,2022年; Xie等,2020年; Xu等,2019年; Liu等,2021c年)。这些方法将2D实例分割重新定义为目标轮廓预测任务,并估计轮廓顶点的图像坐标。CurveGCN(Ling等,2019年)利用图卷积网络来预测多边形边界。Lazarow等(2022年);Liang等(2020年);Li等(2021年);Peng等(2020年)依赖于中间表示,并采用两阶段的范式,即第一阶段执行分割/检测以生成顶点,第二阶段将顶点转换为多边形。这些方法将2D实例分割的轮廓建模为多边形。它们的建模方法无法处理线形地图元素,并且不适用于地图构建。相比之下,MapTR专门针对HD地图构建进行了定制,以统一的方式对各种地图元素进行建模。此外,MapTR不依赖于中间表示,并具有高效紧凑的流程。

三 MAPTR

1.置换等价建模
MapTR旨在以统一的方式对高清地图进行建模和学习。高清地图是一组矢量化的静态地图元素,包括人行横道、车道分隔线、道路边界等。为了进行结构化建模,MapTR将地图元素几何抽象为封闭形状(例如人行横道)和开放形状(例如车道分隔线)。通过沿着形状边界顺序采样点,封闭形状元素被离散化为多边形,而开放形状元素被离散化为折线。

首先,多边形(polygon)和折线(polyline)都可以被表示为有序点集
,其中 Nv 表示点的数量(请参见图 3(Vanilla))。然而,点集的排列并没有被明确定义,并且也不唯一。对于多边形和折线存在许多等效的排列方式。例如,如图 2(a)所示,对于两个相对车道之间的车道分隔线(折线),很难确定其方向。车道分隔线的两个端点都可以被视为起点,点集可以沿着两个方向组织。在图 2(b)中,对于行人横道(多边形),点集可以按照两个相反的方向(逆时针和顺时针)组织。而且,循环地改变点集的排列对多边形的几何形状没有影响。将固定的排列强加为监督是不合理的。这种强加的固定排列与其他等效排列相矛盾,阻碍了学习过程。

在这里插入图片描述

图2

在这里插入图片描述

图3
在这里插入图片描述

在这里插入图片描述

通过引入等效排列的概念,MapTR 统一地对地图元素进行建模,解决了模糊性问题。MapTR 进一步引入了层次双分图匹配)用于地图元素学习,并设计了结构化的编码器-解码器 Transformer 架构来高效地预测地图元素(见第3.4节)。

在这里插入图片描述
在这里插入图片描述

3. 训练损失

MapTR是基于最优的实例级别和点级别分配进行训练的。损失函数由三部分组成:分类损失、点对点损失和边缘方向损失:

在这里插入图片描述
在这里插入图片描述

4. 架构

MapTR采用了编码器-解码器范式。整体架构如图4所示。

在这里插入图片描述
图4

4.1 输入模态

MapTR将车载摄像头的全景图像作为输入。MapTR还兼容其他车载传感器(例如,LiDAR和RADAR)。将MapTR扩展到多模态数据非常简单。由于合理的排列等效建模,即使只有摄像头输入,MapTR的性能也显著优于其他具有多模态输入的方法。

在这里插入图片描述
在这里插入图片描述

四 实验

1.数据和评价准则
作者在流行的nuScenes(Caesar等,2020年)数据集上评估了MapTR,该数据集包含大约1000个场景,每个场景的持续时间约为20秒。关键样本以2Hz的频率进行注释。每个样本都有来自6个摄像头的RGB图像,覆盖了自车的360°水平视野。沿袭之前的方法(Li等,2022a; Liu等,2022a),作者选择了三种地图元素进行公平评估——人行横道,车道分隔线和道路边界。感知范围为X轴[-15.0m,15.0m],Y轴[-30.0m,30.0m]。作者采用平均精度(Average Precision,AP)来评估地图构建的质量。用Chamfer距离(DChamfer)来确定预测和GT是否匹配。作者计算了在几个DChamfer阈值(τ ∈ T,T = {0.5,1.0,1.5})下的APτ,然后对所有阈值进行平均得到最终的AP度量:

在这里插入图片描述
2. 实现细节
MapTR是使用8个NVIDIA GeForce RTX 3090 GPU进行训练的。作者采用AdamW(Loshchilov和Hutter,2019年)优化器和余弦退火调度。对于MapTR-tiny,作者采用ResNet50(He等,2016年)作为主干网络。作者使用总批量大小为32(包含6个视角图像)来训练MapTR-tiny。所有消融研究都是基于经过24个epochs训练的MapTR-tiny进行的。MapTR-nano是专为实时应用而设计的,作者采用ResNet18作为主干网络。更多详细信息请参阅附录A。----- 附录A自己去看论文吧

与现有最先进方法的比较
在表格1中,作者将MapTR与最先进的方法进行了比较。MapTR-nano在RTX 3090上以实时推理速度运行(25.1 FPS),比现有最先进的基于相机的方法(VectorMapNet-C)快8倍,同时实现了5.0个更高的mAP(平均精度)。甚至与现有最先进的多模态方法相比,MapTR-nano实现了0.7个更高的mAP和8倍更快的推理速度,而MapTR-tiny则实现了13.5个更高的mAP和3倍更快的推理速度。MapTR也是一种快速收敛的方法,它在经过24个epochs的训练后表现出先进的性能。

在nuScenes验证集上,作者将MapTR与最先进的方法(Liu等,2022a; Li等,2022a)进行了比较。表中的“C”和“L”分别表示相机和激光雷达。而“Effi-B0”和“PointPillars”分别对应于Tan & Le(2019年)和Lang等(2019年)的方法。其他方法的AP值来自VectorMapNet的论文。VectorMapNet-C的FPS由其作者提供,并在RTX 3090上进行了测量。其他FPS值都是在同一台搭载RTX 3090的计算机上进行的测量。“-”表示相应的结果不可用。值得注意的是,即使只使用相机输入,MapTR-tiny在性能上也显著优于多模态方法(+13.5 mAP)。而MapTR-nano实现了最先进的基于相机的性能,并以每秒25.1帧的速度运行,首次实现了实时的矢量地图构建。

表1

在这里插入图片描述
4.消融分析

为了验证不同设计的有效性,作者在nuScenes验证集上进行了消融实验。更多的消融研究结果详见附录B。

排列等价建模的有效性:在表格2中,作者提供了消融实验,以验证所提出的排列等价建模方法的有效性。与传统的建模方法相比,传统方法对点集施加唯一的排列,而排列等价建模解决了地图元素的不确定性,并带来了5.9个mAP的提升。对于人行横道,提升甚至达到了11.9个AP,证明了在建模多边形元素方面的优越性。作者还在图5中可视化了学习过程,展示了所提出的建模方法的稳定性。这些实验结果表明,排列等价建模在地图构建任务中的确起到了积极的作用,使得模型对于输入点集排列的变化具有更好的适应性,并且在建模多边形元素方面表现出优势。如下表:模型方法的消融研究。传统的建模方法对点集施加唯一的排列,导致了不确定性。MapTR引入了排列等价建模来避免这种不确定性,从而稳定了学习过程,并显著提高了性能(+5.9个mAP)。

表2

在这里插入图片描述
图5

边缘方向损失的有效性:在表格3中,作者对边缘方向损失权重进行了消融实验。β = 0表示不使用边缘方向损失。而β = 5e^(-3)对应适当的监督权重,并且被设为默认设置。

表3

在这里插入图片描述
2D到BEV的转换:在表格4中,作者对2D-to-BEV(二维到鸟瞰图)转换方法进行了消融实验,包括IPM(Inverse Perspective Mapping,透视反投影)(Mallot等,1991年),LSS(Laser Scan Synthesis,激光扫描合成)(Liu等,2022c; Philion & Fidler,2020年),Deformable Attention(可变形注意力)(Li等,2022c)和GKT(Geometric Key-point Transform)(Chen等,2022b)。作者使用了经过优化的LSS实现(Liu等,2022c),为了与IPM和LSS进行公平比较,GKT和Deformable Attention都采用了单层配置。实验结果显示,MapTR与各种2D-to-BEV方法兼容,并实现了稳定的性能。考虑到GKT易于部署和高效性质,作者将其作为MapTR的默认配置。

表4

在这里插入图片描述

五 总结

MapTR是一个结构化的端到端框架,用于高效的在线矢量化高清地图构建。该框架采用简单的编码器-解码器Transformer架构和分层二部图匹配,通过所提出的排列等价建模来进行地图元素学习。大量实验证明,该方法可以在具有挑战性的nuScenes数据集中准确感知任意形状的地图元素。希望MapTR能够作为自动驾驶系统的基本模块,并推动下游任务(例如运动预测和规划)的发展。