下载链接:https://arxiv.org/abs/1911.02620
该文为CVPR2019文章,由Argo AI、卡内基梅隆大学、佐治亚理工学院发布。文章介绍了用于支持研究自动驾驶汽车感知任务(3D 跟踪与运动预测)的数据集Argoverse。对Argoverse做简要介绍如下:Argoverse官网地址为www.argoverse.org。数据包括Argoverse 3D Tracking与Argoverse Motion Forecasting两个数据集。
Argo AI提供了Argoverse的数据接口:https://github.com/argoai/argoverse-api
基于以上两类数据集,Argo AI在NeurIPS 2019举办两场workshop竞赛。
Argoverse 3D Tracking Competition:
https://evalai.cloudcv.org/web/challenges/challenge-page/453/overview
Argoverse Motion Forecasting Competition
https://evalai.cloudcv.org/web/challenges/challenge-page/454/overview
分别给出official baseline code:
仓库链接:https://github.com/alliecc/argoverse_baselinetracker
仓库链接:https://github.com/jagjeet-singh/argoverse-forecasting
以上连个仓库代码均基于Argoverse数据接口。
图1:介绍了用于3D跟踪和运动预测的数据集,其中包含用于自动驾驶的丰富地图。 我们的3D跟踪数据集包含LiDAR测量,360°RGB视频,前置立体声(一直没搞清楚stereo怎么翻译)(右中)和6 dof定位的序列。 所有序列都与包含车道中心线(洋红色),可行驶区域(橙色)和地面高度的地图对齐。 序列用3D长方体轨道(绿色)注释。 右下方显示了更宽的地图视图。
摘要
我们展示Argoverse –两个旨在支持自动车辆机器学习任务(例如3D跟踪和运动预测)的数据集。 Argoverse由匹兹堡和迈阿密的一大批自动驾驶汽车收集。 Argoverse 3D跟踪数据集包括来自7个具有重叠视场的摄像机的360°图像,来自远程LiDAR的3D点云,6-DOF姿势和3D轨道注释。值得注意的是,它是唯一提供前向立体影像的现代AV数据集。 Argoverse运动预测数据集包括300,000多个5秒跟踪场景,其中已识别出特定车辆用于轨迹预测。 Argoverse是第一个包含“高清地图”的自动驾驶汽车数据集,该地图具有290公里的映射车道以及几何和语义元数据。所有数据均根据www.argoverse.org上的知识共享许可发布。在我们的基准实验中,我们说明了详细的地图信息(例如车道方向,可行驶区域和地面高度)如何提高3D对象跟踪和运动预测的准确性。我们的跟踪和预测实验只是对在机器人感知中使用丰富地图的初步探索。我们希望Argoverse将使研究界能够更深入地探索这些问题。
1.简介
过去几年中,自动驾驶中各种感知任务的数据集和基准对计算机视觉界产生了巨大影响。 KITTI [14]的影响给我们特别的启发,它打开并连接了许多新的研究方向。但是,即使详细的地图对于现实世界中的自动驾驶系统的发展至关重要,但用于自动驾驶的公开可用数据集很少包含地图数据。公开提供的地图,例如OpenStreetMap可能有用,但细节和准确性有限。
直观地讲,如果地图直接告诉我们哪些3D点属于道路,哪些属于静态建筑物,所跟踪的对象位于哪个车道,到下一个交叉路口的距离等,则3D场景理解会更容易。但是,由于公开可用数据集不包含丰富的映射属性,如何表示和利用这些特征是一个开放的研究问题。 Argoverse是第一个具有此类详细地图的大规模自动驾驶数据集。我们在3D跟踪和运动预测这两个任务上研究了这些新地图功能的潜在用途,并且我们提供了大量的现实世界,带注释的数据,以为这些问题提供新的基准。我们在本文中的贡献包括:
我们发布了大规模3D跟踪数据集,其中包含来自LiDAR,360o和在不同条件下在两个城市采样的立体声相机的同步数据。与其他最近的数据集不同,我们的360°以30fps捕获。
我们提供15种对象类别的地面真实3D跟踪注释,其跟踪对象的数量是KITTI [14]跟踪基准的五倍。
我们创建了一个由轨迹数据组成的大规模预测数据集,用于有趣的场景,例如十字路口的转弯,交通拥挤和车道变化。
我们发布了地图数据和一个API,可用于开发基于地图的感知和预测算法。我们是第一个具有道路基础设施和交通规则语义向量图的自动驾驶车辆数据集。包含“高清”地图信息也意味着我们的数据集是自动创建地图(通常称为地图自动化)的第一个大型基准。
我们是第一个研究高清地图上下文对3D跟踪和运动预测的影响的人。在3D跟踪的情况下,我们测量基于地图的地面点移除和方向捕捉到车道的影响。在运动预测的情况下,我们尝试从车道图创建各种预测,并通过可驾驶区域图修剪预测。在这两种情况下,使用地图都可以看到更高的准确性。
2.相关工作
具有地图信息的自动驾驶数据集。直到最近,很少能找到提供与注释数据相关的详细地图信息的数据集。注释和构建此类地图的成本过高,引起了人们对地图自动化不断发展的兴趣[35、25、4]。在Argoverse发布之前,没有公共数据集包含3D矢量地图信息,因此阻止了开发地图自动化通用基准的情况。 TorontoCity [58]还专注于地图构建任务,但没有针对动态对象的3D注释。 nuScenes数据集[6]最初包含以感兴趣区域的二进制,栅格化,自上而下的指示器形式显示的地图(其中,感兴趣区域是可行驶区域和人行道的结合)。该地图信息提供给新加坡和波士顿的1000条带注释的车辆日志段(或“场景”)。在Argoverse发布之后,nuScenes释放了2D语义图区域的标签,没有通道或图形结构。与nuScenes一样,我们不仅包含可行驶区域的地图,而且还包含地面高度和车道中心线及其连接的“矢量地图”。
具有3D轨道注释的自动驾驶数据集。现有的许多用于对象跟踪的数据集都集中在来自图像/视频序列的行人跟踪上[16、48、43、2]。一些数据集提供了来自自动驾驶车辆传感器的原始数据,但没有任何物体注释[42、45、49]。 ApolloCar3D数据集[55]面向3D语义对象关键点检测而不是跟踪。 KITTI [14]和H3D [47]提供3D边界框和轨迹注释,但不提供地图。相机的视野是正面的,而不是360o。 VIPER [52]通过3D轨道注释提供来自模拟世界的数据。 nuScenes [6]当前提供360°数据和3D对象检测基准,同时还提供跟踪注释。 Argoverse 3D跟踪数据集包含与详细地图信息对齐的360°3D空间中的轨道注释。有关3D自主车辆数据集之间的比较,请参见表1。
具有轨迹数据的自动驾驶数据集。 ApolloScape [26]还使用配备传感器的车辆来观察野外的驾驶轨迹,并从ApolloScape 3D跟踪注释的子集中提出了预测基准[41]。该数据集包含155分钟的观测值,而Argoverse预测数据集中的观测值为320小时。 IntentNet [7]挖掘了屋顶上的LiDAR数据以获取5400万个对象轨迹,但该数据尚未公开。
使用地图执行自动驾驶任务。尽管运动计划系统广泛使用了高清(HD)地图,但很少有作品探索这种先验的感知系统的使用[60],尽管事实是2007 DARPA城市挑战赛的三项获奖作品均由DARPA提供map –路由网络定义文件(RNDF)[44、57、3]。 Hecker等。 [20]显示通过处理来自OpenStreetMap和TomTom的栅格地图可以改善端到端的路线规划。梁等。 [36]证明了使用OpenStreetMap中的道路中心线和交叉点多边形可以帮助推断人行横道的位置和方向。杨等。 [60]显示,以LiDAR点信息作为模型输入,结合地面高度和鸟瞰(BEV)道路分割可以改善3D对象检测。梁等。 [37]显示了如何通过使用映射(地面高度估计)作为多任务学习中的附加任务来提高3D对象检测精度。 Suraj等。 [40]在车队中使用安装在仪表板上的单目摄像机,通过城市规模的运动结构来构建3D地图,以定位自我车辆和轨迹提取。
3D对象跟踪。在传统的点云跟踪方法中,可以使用诸如DBSCAN [13,33]或占用网格[34,24]的连接组件之类的聚类算法来累积点的分段,然后使用匈牙利算法基于某个距离函数进行关联。举行等。利用概率方法进行点云分割和跟踪[21,23,22]。最近的工作表明,如何在具有深度网络的点云输入上直接估计3D实例分割和3D运动(以3D场景流或每点速度矢量的形式)[59,38]。我们的数据集可在360°帧中通过传感器融合实现3D跟踪。
轨迹预测。空间环境和社会互动会影响行人和汽车的未来发展。 Social-LSTM [1]提出了一个新颖的汇聚层来捕获行人的社会互动。 Social-GAN [17]尝试对预测的多峰性质建模。但是,两者都仅在行人轨迹上进行了测试,没有使用静态上下文(例如地图)。 Deo等。 [11]提出了一种卷积社交集合方法,其中他们首先预测机动,然后预测该机动的轨迹。在自动驾驶领域,空间上下文的使用至关重要,可以从地图中有效利用空间上下文。 Chen等。 [9]通过将输入图像映射到少量的道路/交通状态,将特征驱动的方法用于社会和空间环境。但是,他们将实验限于模拟环境。 IntentNet [7]扩展了Luo等人的联合检测和预测方法。 [39]通过离散化预测空间并尝试预测八种常见驾驶操作之一。 DESIRE [32]展示了一个预测模型,该模型同时捕捉了社会互动和空间背景。作者注意到,这两个附加组件的好处在KITTI数据集上很小,这归因于数据中最小的车辆间交互作用。轨迹预测领域中的另一个挑战性问题是预测可以解决问题的多峰性质的各种轨迹。 R2P2 [50]解决了生成预测模型的多样性-精确度之间的折衷,并制定了对称的交叉熵训练目标来解决这个问题。然后是PRECOG [51],其中他们提出了第一种生成式多智能体预测方法,以根据智能体意图进行调节。他们在真实(nuScenes [6])和模拟(CARLA [12])数据集中获得了最新的预测方法结果。
图2:Argoverse场景的3D可视化。 左:我们累积LiDAR点并将其投影到虚拟图像平面。 右图:使用我们的地图,超出可驾驶区域的LiDAR点将变暗,而靠近地面的点将用青色突出显示。 长方体对象注释和道路中心线以粉红色和黄色显示。
3. Argoverse数据集
3. Argoverse数据集
我们的传感器数据,地图和注释是这项工作的主要贡献。我们还提供了将地图数据与传感器信息(例如,去除地面点,最近的中心线查询和车道图连通性;有关更多详细信息,请参见附录。该数据可从www.argoverse.org获得知识共享许可。在MIT许可下,可以在github.com/argoai/argoverse-api上获得用于基线算法的API,教程和代码。本文档中的统计数据和实验基于2019年10月发布的Argoverse v1.1。
我们从美国宾夕法尼亚州匹兹堡和佛罗里达州迈阿密的一大批自动驾驶汽车(AV)收集了原始数据。这些城市有独特的气候,建筑,基础设施和行为方式。捕获的数据跨越不同的季节,天气条件和一天中的时间。我们的数据集中使用的数据遍历了近300公里的地图车道,并且来自我们车队运营区域的子集。
传感器。 我们的车辆配备了两个安装在车顶的旋转32光束LiDAR传感器。每个LiDAR都有40º垂直视野,两个LiDAR都有30º重叠视野和50º总视野。 LiDAR的射程可达200米,大约是nuScenes和KITTI中使用的传感器射程的两倍。平均而言,我们的LiDAR传感器在每次扫描时都会产生点云,其密度是nuScenes [6]数据集中的LiDAR扫描密度的三倍(我们的107,000点与nuScenes 35,000点)。两个LiDAR传感器以10 Hz的频率旋转并且异相,即以相同的方向和速度旋转,但有偏移以避免干扰。每个3D点都经过运动补偿,以在整个扫掠捕获期间考虑到自我车辆的运动。这些车辆有7台高分辨率环形摄像头(1920 × 1200),以30 Hz的频率记录,且视野重叠,可提供360º覆盖范围。此外,还有2个前置立体声摄像机(2056 × 2464,基线为0.2986 m)以5 Hz采样。为了保护隐私,脸部和车牌在程序上会被模糊处理。最后,每个时间戳的6*度定位来自于基于GPS的定位和基于传感器的定位的组合。车辆定位和地图使用特定于城市的坐标系,在附录中有更详细的描述。特定驾驶会话的传感器测量结果存储在“日志”中,并且我们为LiDAR传感器和每个日志提供所有9台摄像机的内部和外部校准数据。图2以3D形式显示了我们的传感器数据。与[49]类似,我们将自我车辆坐标系的原点放置在后轴的中心。所有LiDAR数据都在自我车辆坐标系中提供,而不是在各个LiDAR传感器坐标系中提供。所有传感器都安装在车顶,其中一个LiDAR传感器被7个“环形”摄像机(顺时针:面向前中,右前,右侧,后右,左后,左侧和左前)和2个立体摄像机包围。图3可视化了我们传感器的几何布置。
图3:汽车传感器原理图。 显示三个参考坐标系:(1)车架,Xv向前,Yv左,Zv向上,(2)相机架,Xc跨像平面,Yc朝下像平面,Zc沿光轴,( 3)LiDAR框架,向前XL,向左YL,向上ZL。 为每个坐标系定义正旋转RX,RY,RZ为遵循右手定则的绕相应轴的旋转。
3.1。地图
Argoverse包含三个不同的地图成分–(1)车道中心线及其属性的矢量地图;(2)地面高度的栅格化地图,和(3)可行驶区域和感兴趣区域(ROI)的栅格化地图。
车道几何向量图。我们的矢量地图由表示为局部图形的语义道路数据组成,而不是栅格化为离散的样本。我们发布的矢量地图是车队运营中使用的地图的简化版。在矢量地图中,我们提供车道中心线,并分为车道线段。我们观察到车辆轨迹通常沿着车道的中心,因此这对于跟踪和预测是有用的。
车道路段是指汽车在一个方向上以单一文件格式行驶的路段。多个车道路段可以占用相同的物理空间(例如,在十字路口)。允许流量沿任一方向流动的转弯车道由占据相同物理空间的两条不同车道表示。
对于每个车道中心线,我们提供了许多语义属性。这些车道属性描述了一条车道是位于十字路口内还是具有相关的交通控制措施(布尔值不相互包含)。其他语义属性包括车道的转弯方向(左,右或无)以及车道的前任者(之前的车道段)和后继者(之后的车道段)的唯一标识符,其中可以有多个(用于合并和分别)。
中心线作为“折线”提供,即直线段的有序序列。每个直线段由2个顶点定义:(xi,yi,zi)起点和(xi + 1,yi + 1,zi + 1)终点。因此,弯曲车道用一组直线近似。
我们观察到,在迈阿密,可用于路线规划的车道段平均宽度为3.84 ± 0.89 m。在匹兹堡,平均宽度为3.97 ± 1.04 m。其他类型的不适合自动驾驶的车道段,例如迈阿密的自行车道可窄至0.97 m,匹兹堡的自行车道可窄至1.06 m。
栅格化的可行驶区域地图。我们的地图包含1米网格分辨率的二进制可驱动区域标签。可驾驶区域是车辆可能驾驶的区域(尽管不一定合法)。除了由车道线段代表的正常可行驶区域外,可行驶区域还可以包含路肩。如果3D对象在可行驶区域的5米以内,则我们将使用轨迹标签对其进行注释(第3.2节)。我们称这个更大的区域为我们感兴趣的区域(ROI)。
栅格化的地面高度图。最后,我们的地图包括1米网格分辨率下的实值地面高度。地面高度的知识可用于消除静态地面上的LiDAR返回,从而使动态物体的3D检测更加容易。图4显示了地面高度不均匀的场景的横截面。
图4:Argoverse数据集中的地面不平坦。 某些Argoverse场景包含不平坦的地面,这很难通过简单的启发式方法消除(例如,假设地面是平面的)。 上方,我们显示了一个LiDAR切片,该切片在右侧有一个斜率,并具有相应的右前摄像头图像。
3.2。 3D轨道注解
Argoverse跟踪数据集包含113条带有人类注释3D轨迹的车辆日志段。这113个片段的长度从15到30秒不等,总共包含11,052个跟踪对象。我们将它们与表1中的其他数据集进行了比较。对于每个日志段,我们使用边界长方体对所有感兴趣的对象(动态和静态)进行注释,这些长方体随时间随每个对象相关联的3D LiDAR返回。我们仅注释了地图定义的可行驶区域5 m内的对象。对于整个段持续时间不可见的对象,在LiDAR点云中该对象变为可见后立即实例化轨迹,并在该对象不再可见时终止轨迹。即使暂时被遮挡,相同的对象ID仍用于同一对象。每个对象都标记有15个类别之一,其中包括ON_ROAD_OBSTACLE和OTHER_MOVER,用于不属于其他预定义类别的静态和动态对象。超过70%的被跟踪对象是车辆,但我们还观察到行人,自行车,轻便摩托车等。图5显示了带注释对象的类的分布。所有曲目标签均通过手动质量保证审核过程。图1和2显示了我们的人类注释标签的定性示例。我们将带注释的跟踪数据分为65个训练,24个验证和24个测试序列。
表1:公共自动驾驶数据集。 我们将最近公开可用的自动驾驶数据集与用于跟踪的3D对象注释(顶部)和用于预测的轨迹(底部)进行了比较。 nuScenes的覆盖范围基于其道路和人行道栅格地图。 Argoverse覆盖区域基于我们的可驾驶区域栅格地图。 统计数据于2019年9月更新。
图5:对象类的分布。 该图以对数刻度显示了Argoverse 3D跟踪数据集中113个日志段中为每个类注释的3D对象跟踪的数量。
3.3。挖掘运动预测的轨迹
我们还对研究运动预测的任务感兴趣,在运动预测中,我们可以预测将来某个时间跟踪对象的位置。运动预测对于安全的自主车辆运动计划至关重要。尽管我们带有人工注释的3D轨道适合进行运动预测的训练和测试数据,但许多车辆的运动相对无意义-在给定的帧中,大多数汽车都以几乎恒定的速度停泊或行驶。这样的轨迹很难代表真实的预测挑战。我们想要一个具有多种场景的基准测试,例如管理交叉路口,合并车辆减速,转弯后加速,道路上的行人停车等。为了对这些有趣的场景进行足够的采样,我们跟踪了迈阿密和匹兹堡1006个行驶小时内的物体,并找到了有趣的车辆在那320小时内的行为。特别是,我们挖掘的车辆要么是(1)在十字路口,要么(2)左转或右转,(3)转向相邻车道,或者(4)在交通繁忙时 。我们总共收集了324,557个5秒序列,并将其用于预测基准。图6显示了这些序列的地理分布。每个序列都包含以10 Hz采样的每个被跟踪物体的2D鸟瞰中心。每个序列中的“焦点”对象始终是车辆,但是其他跟踪的对象可以是车辆,行人或自行车。它们的轨迹可用作“社会”预测模型的上下文。 324,557个序列分为205,942个序列,39,472个验证和78,143个测试序列。每个序列都有一个具有挑战性的轨迹,这是我们预测基准的重点。训练,验证和测试序列取自我们城市的不相连部分,即每个城市的大约八分之一和四分之一被分别留作验证和测试数据。该数据集远大于可以从公共可用的自动驾驶数据集中挖掘的数据集。尽管如此规模的数据很吸引人,因为它使我们能够看到罕见的行为并训练复杂的模型,但它太大了,无法详尽地验证开采轨迹的准确性,因此,数据中固有一些噪声和误差。
图6:开采轨迹的分布。 颜色表示在迈阿密(左)和匹兹堡(右)地图上的轨迹轨迹数。 寻找有趣的车辆行为的启发式方法导致交叉路口和繁忙的道路(例如,Liberty和Penn Ave(右下插图中的东南道路))上的注意力更加集中。
4. 3D对象跟踪
在本节中,我们研究了各种基线跟踪方法如何在Argoverse 3D跟踪基准上执行。我们的基准线方法采用了LiDAR和环形摄像头图像的混合方法,可直接在3D模式下运行。除了衡量基准的基线难度外,我们还衡量简单的基于地图的启发式方法如何影响跟踪精度。对于这些基准,我们仅跟踪和评估车辆。
给定一系列F帧,其中每个帧包含一组环形摄像头图像和来自LiDAR Pi的3D点,其中Pi的x,y,z坐标,我们想要确定一组轨迹假设{Tj | j = 1,…,n},其中n是整个序列中唯一对象的数量,Tj包含对象中心位置和方向的集合。我们通常有一个动态的观察者,因为我们的汽车经常行驶。我们周围场景中的履带车辆可以是静止的或移动的。
基线跟踪器。我们的基线跟踪管道将LiDAR返回的行车区域(在地图上标出),以检测潜在的物体,使用Mask R-CNN [18]修剪非车辆的LiDAR返回,使用最近的邻居和匈牙利算法将聚类随时间进行关联,使用迭代最接近点(ICP)估计群集之间的转换,并使用等速运动模型通过经典的卡尔曼滤波器估算车辆姿态。所有车辆均使用相同的预定义边框尺寸。
如果无法通过匈牙利方法找到对象的匹配项,则在删除对象或将其关联到新的群集之前,仅使用最多5帧的运动模型来维持对象的姿势。即使对象在短时间内被遮挡并重新出现,这也使我们的跟踪器可以保持相同的对象ID。如果集群不与当前跟踪的对象相关联,我们将为其初始化一个新的对象ID。
跟踪器使用以下地图属性:
可行驶区域。由于我们的基线侧重于车辆跟踪,因此我们将跟踪器限制在地图指定的可驾驶区域。该可行驶区域覆盖车辆可能行驶的任何区域(请参阅第3.1节)。这种限制减少了误报的机会。
地面高度。我们使用地图信息去除地面上的LiDAR返回。与局部地平面估计方法相比,基于地图的方法在倾斜和不平坦的环境中有效。
车道方向。由于LiDAR的稀疏性和局部视野,仅凭LiDAR来确定车辆方向是一项艰巨的任务。我们观察到车辆方向很少违反车道方向,尤其是在十字路口外。幸运的是,此类信息可在我们的数据集中获得,因此,只要车辆不在十字路口且包含的LiDAR点太少,我们就会根据车道方向调整车辆方向。
4.1。评价
我们利用通常用于多对象跟踪(MOT)的标准评估指标[43,5]。 MOT度量依赖于地面真实情况与预测对象之间的距离/相似性度量来确定最佳分配。进行分配后,我们将对MOTP使用三个距离度量:MOTP-D(质心距离),MOTP-O(方向误差)和MOTP-I(交叉路口误差) 。 MOTP-D是由相关跟踪器输出和地面真实情况之间的3D边界框质心距离计算的,在MOTA中也用作检测关联范围。我们的“遗失”轨道阈值是2米,是美国平均家庭用车长度的一半。 MOTP-O是绕z轴(垂直)的最小角度差,从而忽略了前后对象的方向,而MOTP-I是无模态形状估计误差,由3D边界框的1-IoU计算得出与nuScenes中一样对齐方向和质心[6]。对于所有三个MOTP分数,较低的分数表示较高的准确性。
在我们的实验中,我们在Argoverse 3D跟踪测试集中的24个日志上运行跟踪器。我们也对跟踪性能和距离之间的关系感兴趣。我们将阈值(30、50、100 m)应用于车辆与我们的自我车辆之间的距离,并且仅评估该范围内的注释和跟踪器输出。表2中的结果表明,我们的基线跟踪器在LiDAR采样密度较高的短距离范围内表现良好,但是对于超过50 m的物体却很难。
在我们的实验中,我们在Argoverse 3D跟踪测试集中的24个日志上运行跟踪器。我们也对跟踪性能和距离之间的关系感兴趣。我们将阈值(30、50、100 m)应用于车辆与我们的自我车辆之间的距离,并且仅评估该范围内的注释和跟踪器输出。表2中的结果表明,我们的基线跟踪器在LiDAR采样密度较高的短距离范围内表现良好,但是对于超过50 m的物体却很难。
我们将基线跟踪器与三种消融方法进行比较,包括:1)使用基于地图的地面去除和地图上的车道方向; 2)从地图上使用朴素的地面拟合地面移除和车道方向; 3)使用基于地图的地面去除,并且没有从地图上获得车道方向。表3中的结果表明,与基于地图的地面拟合方法相比,基于地图的地面去除方法在较长距离下具有更好的3D IoU评分和更好的检测性能(更高的MOTA),但方向稍差。另一方面,如图7所示,地图的车道方向可以显着改善方向性能。
我们采用了相对简单的基准来跟踪3D对象。我们认为,我们的数据为基于地图的多模式跟踪研究提供了新方法。
图7:通过方向捕捉进行跟踪。 使用车道方向信息有助于确定车辆方向以进行检测和跟踪。
表2:使用地图进行地面移除和方向初始化的不同范围的跟踪精度。 从上至下,适用于30 m,50 m和100 m内的车辆的精度。
表3:使用不同的地图属性时,不同范围的跟踪精度比较。 从上至下,适用于30 m,50 m和100 m内的车辆的精度。
5.运动预测
在本节中,我们描述了用于运动预测基线的管道。
1.预处理:如第3.3节所述,我们首先挖掘“有趣”的序列,在其中观察“焦点”载具 5秒钟。作为上下文,我们具有所有其他跟踪对象(包括AV本身)的质心,这些质心被折叠为一个“其他”类。
预测坐标系和归一化。我们用于轨迹预测的坐标系是自顶向下的鸟瞰图(BEV)。预测涉及三个参考坐标系:(1)在城市坐标系中存储和评估原始轨迹数据。 (2)对于使用车道中心线作为参考路径的模型,我们定义了一个二维曲线坐标系,其轴线与车道中心线相切且垂直。 (3)对于没有参考路径(没有地图)的模型,我们对轨迹进行归一化,以使轨迹的观察部分始于原点,并在正x轴上结束。如果 (x,y)表示在时间步t处轨迹V的坐标,则此归一化可确保ytobs=0,其中Tobs是轨迹的最后观察到的时间步(第5.1节)。我们发现这种归一化比将轨迹留在绝对地图坐标或绝对方向上更好。
2.特征工程:我们定义了其他特征来捕获社会或空间环境。对于社交环境,我们使用到前面,后面和附近对象的最小距离。这种启发式方法旨在捕获车辆之间的社交互动。对于空间上下文,我们通过计算车道线段坐标系中的特征将地图用作先验。我们计算与每个轨迹相对应的车道中心线,然后将坐标 (x,y)映射到沿中心线 a的距离并偏离中心线o。在随后的部分中,我们分别通过时间st和mt分别表示时间步t的轨迹Vi的社会特征和地图特征。
3.预测算法:我们使用不同的功能组合来实现恒定速度,最近邻和基于LSTM编码器-解码器的[46、15、56]模型。结果在5.3节中进行了分析。
5.1。问题描述
预测任务的框架为:给定车辆轨迹的过去输入坐标Vi ,其中对于时间步长t的 X,预测时间步长T的未来坐标 Y。对于汽车,5 s足以捕获轨迹的显着部分,例如。过十字路口。在本文中,我们将运动预测任务定义为观察20个过去的帧(2 s),然后预测未来的30个帧(3 s)。每个预测任务可以按相同顺序利用其他对象的轨迹来捕获社交环境并为空间环境映射信息。
5.2。多重预测评估
预测未来是困难的。对于给定的观察结果,通常会采取几种可能的未来措施。对于自动驾驶汽车,重要的是预测许多可能的结果,而不仅仅是最可能的结果。尽管一些先前的工作以确定性的单峰方式评估了预测,但我们认为更好的方法是遵循类似于DESIRE [32],Social GAN [17],R2P2 [50]和[51]的评估方法。鼓励算法输出多个预测。在[50]中评估的各种指标中,有minMSD超过K个样本数量的指标,其中K =12。在[32]中使用了类似的方法,它们允许K最高为50。我们遵循相同的原则方法并使用针对K个预测的最小平均位移误差(minADE)和最小最终位移误差(minFDE)作为我们的指标,其中K = 1、3、6、9。请注意,minADE指的是轨迹的ADE,具有最小FDE,而不是最小ADE,因为我们要评估单个最佳预测。就是说,minADE错误可能不是一个足够的指标。如[50]和[51]中所述,诸如minMSD或minFDE之类的指标只能评估最佳轨迹的好坏,而不能评估所有轨迹的好坏。具有5条良好轨迹的模型将具有与具有1条良好轨迹和4条不良轨迹的模型相同的误差。此外,考虑到问题的多模式性质,根据一个单一的基本事实进行评估可能并不公平。为了尝试基于预测的质量进行评估,我们提出了另一个度量标准:可驾驶区域合规性(DAC)。如果模型产生n个可能的未来轨迹,并且其中m个轨迹在某个点离开可驱动区域,则该模型的DAC为(n m)/ n。因此,较高的DAC意味着更好的预测轨迹质量。最后,我们还使用阈值为1.0米的未命中率(MR)[61]。它还是从最终位移误差分布中得出的度量。如果存在n个样本,并且其中m个具有其最佳轨迹的最后一个坐标距离地面真相超过2.0 m,则未命中率为m / n。我们报告的基于地图的基线可以访问语义矢量地图。因此,他们可以基于沿特定观察轨迹的路网分支生成K个不同的假设。我们将中心线用作未来假想参考路径的一种形式。我们的启发式方法生成K = 10个中心线。我们的地图为我们提供了一种生成紧凑而多样的预测集的简便方法。最近的邻居基准可以通过考虑不同数量的邻居来进一步预测可变数量的输出。
5.3。 结果
在本节中,我们评估了多模式预测,社会情境和空间情境(来自矢量地图)的效果,以改善未来3秒内的运动预测。 我们评估了以下模型 :
这些基线的结果报告在表4中。如果仅允许1个预测,则基于NN的基线会产生不正确的邻居,并且其minADE和minFDE较差。另一方面,基于LSTM的基线至少能够学习轨迹行为并获得更好的结果。对于K = 1的情况,没有映射的LST M基线能够获得最佳的minADE和mindFDE。此外,像以前一样使用映射的基线具有更高的DAC。现在,随着K的增加,N N先从地图中受益,并不断产生更好的预测。将地图用于修剪时,它会进一步改善所选轨迹,并提供最佳的minADE和minFDE。 LSTM + map(先前)1-G,n-C优于NN + map(先前)1-G,n-C,突出了LSTM在将曲线坐标泛化方面做得更好的事实。此外,将地图用作先验总是可以提供更好的DAC,证明我们的地图有助于预测遵循基本地图规则(例如停留在可驾驶区域)的轨迹。另一个有趣的比较是NN + map(先前)1-G,n-C和NN + map(先前)m-G,n-C。前者提出了许多参考路径(中心线),并沿着这些路径中的每一个做出了一个预测。后者具有较少的参考路径,但沿这些路径中的每条路径都会产生多个预测。后者在所有三个指标上均优于前者,这表明预测沿相同参考路径遵循不同速度曲线的轨迹的重要性。图9报告了针对不同的m和n值进行的消融研究结果。最终,当可以访问高清矢量地图并能够做出多种预测(K = 6)时,即使是像NN + map(prior)mG,nC这样的浅模型也可以胜过确定性的深模型LSTM + social( K = 1)可以访问社交环境。
图8:来自NN + map(先前)的M-G,n-C运动预测基线的定性结果。 橙色轨迹表示观察到的2 s。 红色表示接下来的3秒钟的地面真实情况,绿色表示这3秒钟的多个预测轨迹。 左上方:汽车从停车线开始加速,该模型能够预测2种不同的模式(右转和直行)以及沿这些模式的不同速度曲线。 右上方:该模型能够预测2种不同的情况-车道变更和停留在同一车道上。 左下:该模型能够穿越复杂的交叉路口并向左转弯而不会违反任何车道规则,因为它能够使用矢量地图生成参考路径。 右下:根据速度分布图和转弯半径,这些预测说明了可以采取左转弯的不同方式。
表4:不同数量的预测的运动预测误差。 minADE:最小平均排量误差,minFDE:最小最终排量误差,DAC:符合驾驶区要求,MR:失误率(阈值为2 m)。 有关这些指标的定义,请参阅第5.2节(↓表示越低越好)。
图9:NN + map(先前)m-G,n-C的minFDE,其中n(#Centerlines)和m(#Predictions沿每个中心线)的值不同。 在参考路径数(n)和沿每个参考路径的预测数(m)之间需要权衡。 增加n可以确保捕获不同的高阶场景,而增加m可以确保捕获沿给定参考路径的不同速度分布。 如果中心线的数量足够,则对于相同的预测总数,通常最好沿着较少的中心线进行多个预测,而不是沿着更多的中心线进行1个预测。
6.讨论
Argoverse代表了两个用于自动驾驶研究的大规模数据集。 Argoverse数据集是第一个具有丰富地图信息(例如车道中心线,地面高度和可行驶区域)的数据集。 我们研究了基于地图的上下文进行3D跟踪的基线方法。 我们还挖掘了1000个小时的车队日志,以发现构成我们运动预测基准的各种现实对象轨迹。 我们研究了基线预测方法,并验证了地图数据可以提高准确性。 我们维护3D对象跟踪和运动预测的公共排行榜。 构成Argoverse的传感器数据,地图数据,注释和代码可在我们的网站Argoverse.org上找到。