51-29 CVPR 2024 | BEV-Planner：开环端到端自动驾驶中自车状态是你所需要的一切吗？

本论文是南京大学、英伟达最新CVPR 2024工作。蛮幸运的，该论文提出了很多思考，证明了很多最优Paper在落地上车方面的无效性。咱们对待新方法能否成为自动驾驶的最佳实践要审慎。

论文名称：Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving?
论文链接：/abs/2312.03031.
代码链接：/NVlabs/BEV-Planner.

本文对开环端到端自动驾驶中自车状态进行了深度分析，论文主要贡献如下：

现有基于nuScenes的开环自动驾驶模型规划性能受到自车状态(速度、加速度、偏航角)的高度影响。模型的最终预测轨迹基本上由自车状态主导，不用感知信息也能达到相当的性能。
现有指标并没有全面评估规划的质量，模型的评估结果可能存在偏见。我们提倡采用更多样化、更全面的指标来防止模型在特定指标上实现局部最优，这可能会导致忽略其他安全隐患，出现难以置信的规划轨迹。
与其在现有nuScenes数据集上开发更优性能的方法，我们认为开发更合适数据集和指标是一个更关键和紧迫的挑战。

本文由深圳季连科技有限公司AIgraphX自动驾驶大模型团队编辑。如有错误，欢迎在评论区指正。

Abstract

端到端自动驾驶从全栈的角度来瞄准自动驾驶，最近成为一个很有前途的研究方向。沿着这条路线，许多最新的工作都遵循在nuScenes数据集上的开环评估来研究路径规划。

在本文中，我们对这个问题进行了深入的分析，并在细节上揭开了更多的神秘面纱。

我们最初观察到，nuScenes数据集以相对简单的驾驶场景为特征，导致端到端模型中包含自车状态(如速度)的感知信息利用不足。这些模型往往主要依赖于自车状态ego status来进行未来的路径规划。
除了数据集的局限性之外，我们还注意到，目前的指标并没有全面评估规划质量，导致从现有基准得出的结论可能存在偏见。

为了解决这些问题，我们引入了一个新指标来评估预测的轨迹是否符合道路。我们进一步提出了一个简单的基线，能够在不依赖感知标注的情况下实现有竞争力的结果。鉴于目前对基准和指标的限制，我们建议社区重新评估相关的主流研究，并对继续追求最先进的技术是否会产生令人信服的普遍结论持谨慎态度。

1. Introduction

端到端自动驾驶旨在以全栈方式联合考虑感知和规划。一个潜在的动机是评估自动驾驶汽车（AV）感知，将其作为达到目的（规划）的一种手段，而不是过度拟合某些感知指标。

与感知不同，规划通常更加开放，难以量化。理想情况下，这种规划的开放性将有利于闭环评估设置，其中其他智能体可以对自车的行为做出反应，原始传感器数据也可以相应地改变。然而，智能体行为建模和闭环真实世界数据仿真，迄今为止仍然是具有挑战性的开放问题。因此，闭环评估不可避免地给现实世界带来了相当大的域差距。

另一方面，开环评估旨在将人类驾驶视为地面真值，将规划制定为模仿学习。这样的公式允许通过简单的日志回放轻松使用真实世界的数据集，避免了仿真的域差距。它还提供了其他优势，例如在复杂多样化的交通场景中训练和验证模型的能力，这些模型在仿真中通常难以高保真地生成。

因为这些好处，一个成熟的研究机构专注于使用真实世界数据集的开环端到端自动驾驶。

目前流行的端到端自动驾驶方法通常使用nuScenes对其规划行为进行开环评估。例如，UniAD研究了不同感知任务模块对最终规划行为的影响。然而，AD-MLP最近指出，仅仅依靠自车状态信息，一个简单的MLP网络也可以获得SOTA的规划结果。这促使我们提出一个重要的问题：

对于开环端到端自动驾驶来说，有自车状态就足够了吗?
考虑到在当前基准测试中使用自车状态的利弊，我们的答案是yes and no。

Yes.自车状态中的速度、加速度和偏航角等信息显然有利于规划任务。为了验证这一点，我们修复了AD-MLP的一个开放问题（/E2E-AD/AD-MLP/issues/4），并删除了使用历史轨迹ground truth (GTs)来防止潜在的标签泄漏。我们复现了模型Ego-MLP(图1 a.2)，仅依赖于自车状态，在现有L2距离和碰撞率指标方面，与最先进的方法性能相当。

图1所示，(a) AD-MLP使用车状态和历史轨迹GTs作为输入。我们的复制版本(Ego-MLP)去掉了过去的轨迹。(b)现有的端到端自动驾驶pipeline由感知、预测和规划模块组成。自车状态可以集成到BEV生成模块或规划模块中。(c)我们设计了一个简单的基线，以便与现有方法进行比较。简单的基线不利用感知或预测模块，直接预测基于BEV特征的最终轨迹。

另一个观察结果是，现有的一般方法，只有将自车状态信息纳入规划模块中，才能获得与Ego-MLP相当的结果。尽管这些方法采用了额外的感知信息(跟踪、高清地图等)，但与Ego-MLP相比，它们并没有表现出优势。

这些观察结果验证了自车状态在端到端自动驾驶开环评估中的主导作用。

And No.同样明显的是，自动驾驶作为一种安全关键应用，不应该仅仅依靠自车状态来做出决策。那么，为什么只使用自车状态就可以获得最佳规划结果这种现象呢?为了解决这个问题，我们提出了一套全面的分析，涵盖了现有的开环端到端自动驾驶方法。我们指出了现有研究中的主要缺陷，包括数据集、评估指标和具体模型实现等相关方面。我们将在本节的其余部分逐项详细列出这些缺点:

Imblanced dataset.NuScenes是开环评估任务常用的基准。然而，我们的分析表明，73.9%的nuScenes数据涉及直行驾驶场景，从图2的轨迹分布可以看出。

对于这些直线行驶场景，在大多数情况下，保持当前的速度、方向或转弯率就足够了。因此可以容易地利用自车状态信息作为适合规划任务的便捷方式，从而导致Ego-MLP在nuScenes上强大的性能。

Existing metrics are not comprehensive.其余26.1%的nuScenes数据涉及更具挑战性的驾驶场景，可能是更好的规划行为基准。然而，我们认为目前广泛使用的指标，如预测和规划GT之间的L2距离以及自车与周围障碍物的碰撞率，无法准确衡量模型的规划行为质量。通过可视化从各种方法生成的许多预测轨迹，我们注意到一些高风险的轨迹，比如跑出道路，在现有的度量中可能不会受到严重的惩罚。针对这一问题，我们引入了一个新的度量来计算预测轨迹与道路边界之间的相互作用率。在关注道路边界的交叉率的同时，基准将经历实质性的转变。就这个新指标而言，Ego-MLP比UniAD更倾向于预测偏离道路的轨迹。

Ego status bias against driving logic.由于自车状态是导致过拟合的潜在来源，我们进一步观察到一个有趣的现象。我们的实验结果表明，在某些情况下，从现有的端到端自动驾驶框架中完全去除视觉输入并不会显著降低规划行为。这与基本的驾驶逻辑相矛盾，因为感知被期望为规划提供有用的信息。例如，在VAD中，当自车状态存在时，关闭所有的摄像头输入会导致感知模块完全失效，但规划能力只有轻微下降。然而，改变输入自车速度会显著影响最终的预测轨迹。

总之，我们推测，最近在端到端自动驾驶方面的努力及其对nuScenes的最新分数可能是由过度依赖自车状态以及简单驾驶场景的优势引起的。此外，目前的指标在全面评估模型预测轨迹的质量方面存在不足。这些悬而未决的问题和缺点可能低估了规划任务的潜在复杂性，制造了一种误导性的印象，即自车状态是开环端到端自动驾驶所需要的全部。在当前的开环端到端自动驾驶研究中，自车状态的潜在干扰提出了另一个问题:是否有可能通过从整个模型中去除自车状态来消除这种影响?然而，值得注意的是，即使排除自车状态的影响，基于nuScenes数据集的开环自动驾驶研究的可靠性仍然存在问题。

2. Related Work

2.1 BEV perception

近年来，基于BEV的自动驾驶感知方法取得了很大的进展。Lift-Splat-Shoot 首先提出使用潜在深度分布来执行视图转换。BEVFormer将时间线索引入到BEV感知中，大大提高了3D检测性能。一系列后续工作通过获得更准确的深度信息或更好地利用时间信息来获得更精确的3D感知结果。时间信息的结合通常需要跨不同时间步对齐特征。在对齐过程中，自车状态要么隐式编码在输入特征中，要么显式用于转换BEV特征。HDMapNet、VectorMapNet、BEV-LaneDet、StreamMapNet等方法探索了基于BEV特征的地图感知。

2.2 End-to-end autonomous driving

现代自动驾驶系统通常分为三个主要任务：感知、预测和规划。端到端自动驾驶将从原始传感器数据学习引导到规划轨迹或驾驶指令，无需手动提取特征，从而实现高效的数据利用率和对不同驾驶场景的适应性。已有大量研究专注于模拟仿真中的闭环端到端驾驶。然而，模拟器环境和现实世界之间仍然存在域差距，特别是在传感器数据和代理的运动状态方面。最近，开环端到端自动驾驶引起了更多的关注。涉及学习中间任务的端到端自动驾驶方法声称它们在提高最终规划性能方面是有效的。AD-MLP 指出了 nuScenes 中数据分布不平衡的问题，并尝试仅使用自车状态作为模型输入来实现SOTA性能。然而，AD-MLP 受益于利用自车的历史轨迹作为输入。鉴于现有方法都没有使用自车的历史轨迹信息，我们认为在开环自动驾驶中使用历史轨迹是一个有争议的话题，因为模型本身不会生成这种历史轨迹，而是由实际的人类驾驶员生成的。

3. Proposed BEV-Planner

事实上，ST-P3 是一种以前经常作为基线的方法，在训练和评估期间使用部分不正确的 GT 数据（Problem of GT generation · Issue #24 · OpenDriveLab/ST-P3 · GitHub）。因此，在ST-P3 与其他方法进行比较时，必须仔细评估所得结论的有效性。因此，在本文中，有必要重新设计基线方法以与现有方法进行比较。同时，为了更好地探索自车状态的影响，我们还需要一个相对清晰的基线方法。基于这些考虑，我们在本文中设计了一个非常简单的基线，称为 BEV-Planner，如图 1(c) 所示。对于我们的pipeline，我们主要遵循之前的方法，首先生成 BEV 特征并将其与历史 BEV 特征连接起来。请注意，在连接来自不同时间步长的 BEV 特征时，我们没有执行特征对齐。在获得BEV特征后，我们直接在BEV特征和自车查询之间执行交叉注意，这是一个可学习的嵌入。通过 MLP 基于细化的自车查询来预测最终轨迹。该过程可以表述为：

其中 Q 是自车查询，B 是时间融合后的 BEV 特征。τ 是最终预测的轨迹。

为了与现有方法保持一致，我们还设计了将自车状态纳入 BEV 或规划器模块的基线方法。将自车状态纳入BEV的策略与之前的方法一致。在规划器中加入自车状态的策略是将自车查询与包含自车状态的向量直接连接。与现有方法相比，这种简单的方法不需要任何人工标记的数据，包括边界框、跟踪 ID、高清地图等。对于这个提议的基线，我们只使用一个 L1 损失进行轨迹监督。

我们提出的基线方法不是为实际部署而设计的，因为它在提供足够的约束和互操作性方面存在缺陷。

4. Experiments

4.1. Implementation Details

我们的基线使用 ResNet50 主干。输入分辨率为 256×704，小于现有方法。BEV分辨率为128×128，感知范围为50米。对于使用历史 BEV 特征的基线，我们将过去 4 个时间步长的 BEV 特征沿通道维度直接连接到当前 BEV 特征，而无需对齐。BEVDet4D方法中的BEV编码器进一步用于将通道维度压缩到256。我们在8个V100 GPU上训练模型12个epoch，批大小为32，学习率为1e-4。

4.2. Metrics

Collision Rate.虽然目前的方法倾向于评估计划轨迹的碰撞率，但现有方法中该指标的定义和实现都存在问题。首先，在开环端到端自动驾驶中，其他代理不会引起自车的响应。相反，它们严格遵守预定的轨迹。因此，这导致了碰撞率计算的偏差。第二个问题源于当前方法生成的规划预测仅由一系列轨迹点组成。因此，在最后的碰撞计算中，没有考虑自车的偏航角。相反，假设它保持不变。这一假设导致了错误的结果，特别是在转弯场景中，如图3所示。

图3，目前的方法忽略了考虑自车的偏航角变化，始终保持0个偏航角(用灰色车辆表示)，从而导致(b)碰撞检测中假阴性(a)和假阳性的发生率增加。在本文中，我们通过从轨迹的变化(由红色车辆描述)估计车辆的偏航角来提高碰撞检测精度。

每个样本的碰撞率的当前定义为：

N 表示 t 秒间隔的步骤数，IIi 表示步骤 i 处的自车是否会与其他代理相交。在本文中，我们修改了碰撞的定义。

对于之前的实现，他们假设每个时刻的碰撞是相互独立的，这与现实场景不一致。我们修改后的版本产生的值，更精确地指示沿预测轨迹发生的碰撞率。

Intersection Rate with Road Boundary.在这项研究中，为了更全面地评估预测轨迹的质量，我们采用了一种新的度量来计算预测轨迹与道路边界的intersection rate。道路保持对于自动驾驶系统的安全性至关重要，但现有评估指标忽略了与地图先验的集成。直观地说，安全轨迹应该避免与道路边界的相互作用。与道路边界相互作用通常表明了离开可行驶区域的可能性，这可以构成安全危害。

我们认识到 nuScenes上的某些带标注的道路边界确实是可遍历的，并且地面真值轨迹在特定条件下可能与这些边界相交。然而，从统计角度来看，该指标可以有效地表示模型预测轨迹的整体合理性。基于道路边界度量的intersection rate是通过碰撞率来实现的。为了促进这一点，我们使用 0.1 米的分辨率栅格化道路边界。

Union Implementation.考虑到缺乏评估度量标准的官方部署，现有方法可能在其度量标准实现的细节上有所不同。在本文中，我们使用其他方法官方开源存储库来生成轨迹预测结果，然后使用相同度量来评估所有方法，以确保公平性。针对AD-MLP提出的粗粒度网格（0.5米），可能导致错误碰撞问题，我们在工作中采用了更精细的0.1米默认网格大小来缓解这一问题。

4.3. Discussion

备注：个人认为这节是本文的重点，值得好好琢磨。

4.3.1. Ego status plays a key role

虽然只关注之前L2距离和碰撞率指标，但可以观察到简单策略(ID-7)，即以当前速度继续直线行驶，取得了令人惊讶的好结果。没有利用感知线索的 Ego-MLP 模型，实际上与使用更复杂pipeline的 UniAD 和 VAD 相当。从另一个角度来看，当自车的状态被纳入规划器时，现有方法只能匹配 Ego-MLP 性能。相比之下，仅依靠相机输入会导致结果明显低于 Ego-MLP 获得的结果。考虑到这些观察结果，我们可以初步推断出一个有趣的结论：单独使用自车状态与利用感知信息、自车状态组合产生的结果相媲美。因此，在整合自车状态和感知信息的模型中，出现一个问题：从相机输入获得的感知信息在最终规划模块中扮演什么具体角色？

4.3.2. Ego Status vs. Perceptual Information

毫无疑问，感知信息构成了所有自动驾驶系统不可或缺的基础，自车状态还提供了关键数据，如车辆速度和加速度，以帮助系统决策。将感知信息和自车状态纳入最终规划，确实应该是端到端自动驾驶系统中明智的策略。但是，如表1所示，仅仅依靠车我状态可以产生与那些同时利用自车状态和感知模块的方法相当甚至更好的规划结果，这些方法基于之前L2或碰撞率指标。

表1，Open-loop planning performance. 官方UniAD (ID-2)在其BEV模块中使用了自车状态，我们对UniAD和VAD的官方代码库进行了微小的修改，以调查不同应用自车状态(ID-1,3和4)引起的结果变化。以当前速度进行的朴素策略(ID-7)也产生了令人满意的结果。在没有感知模块的情况下，Ego - MLP (ID-8)仅利用自车速度、加速度、偏航角和驾驶指令，在先前的L2距离和碰撞率指标上，取得了与当前最先进车型相当的性能。BEV-Planner* 我们的简单基线(ID-9)没有利用历史时间信息。基线(ID-10)利用过去4帧的时间线索。为了保证实验的全面性，我们还调查了自车状态对基线模型(ID-11& 12)的影响。

如下表2中所示，为了确定感知信息和自车状态在最终规划过程中扮演的角色，我们对图像和自车状态引入了不同程度的扰动。

表2，The VAD-base model's robustness to images and ego status。为了确定感知信息和自车状态对最终规划性能的影响，我们系统地将噪声分别引入到每个分量中。我们使用官方的VAD-Base检查点，它在其规划器模块中使用自车状态。VAD-Base* 在其规划器中没有自车状态。我们可以观察到，在图像中引入corruption会显著影响感知结果，特别是在使用空白图像的情况下。尽管如此，这并没有明显地破坏最终的规划结果。与图像损坏对规划的影响较小相比，自车速度的修改对规划结果有显著影响。实验结果表明，在包含自车状态和感知信息的端到端模型中，自车状态对决策的影响不成比例，从而大大增加了模型的安全风险。†:碰撞率不精确，因为自车可能偏离本地BEV区域。当输入速度为零时，模型产生几乎静止的轨迹，从而在与道路边界度量的交点中产生出色的性能。这可以被视为intersection度量的限制。

我们使用官方的VAD模型（在规划器模块中利用自车状态）作为基础模型。可以观察到，当干扰被添加到图像中时，规划的结果会略微降低，有时可能表现出改善，而感知性能会显著恶化。令人惊讶的是，即使使用空白图像作为输入，感知模块完全崩溃，而模型的规划能力基本上不受影响。相应的可视化结果如图4所示。

图4。我们展示了VAD模型在各种图像破坏下的预测轨迹（将自车状态纳入其规划中）。给定场景（跨越20秒）内的所有轨迹都显示在全局坐标系中。每个三角形标记表示自车载体的一个基本事实轨迹点，不同的颜色代表不同的时间步长。值得注意的是，即使空白图像作为输入，模型的预测轨迹也保持了合理性。然而，红框内的轨迹是次优的，如图5所示。虽然所有环绕视图应用了损坏的图像，但为了可视化，仅显示初始时间步长处的相应前视图像。

图5，在开环自动驾驶方法中，从自车的起始位置预测未来的轨迹。在模仿学习范式中，理想情况下，预测的轨迹应该与实际地面真值轨迹紧密对齐。此外，在连续时间步，预测的轨迹应该保持一致性，从而保证驾驶策略的连续性和平滑性。因此，图4红框所示的预测轨迹不仅偏离了地面真值轨迹，而且在各种时间戳上表现出显著的差异。

与该模型对图像输入变化的显著鲁棒性相反，它对自车状态表现出相当大的敏感性。在改变自车速度后，我们可以观察到模型的规划结果受到显著影响，如图6所示。

图6，对于规划器中包含自车状态的VAD模型，我们在视觉输入保持不变的情况下，将噪声引入自车速度。值得注意的是，当自车速度数据受到扰动时，产生的轨迹表现出显著的变化。将车辆速度设置为零会平稳预测，而100米/秒的速度会导致难以置信的轨迹投影。这表明，尽管感知模块继续提供准确的周围信息，但模型的决策过程对自车状态的依赖性不成比例。

将自车速度设置为100 m/s，会导致模型生成非常不切实际的规划轨迹。我们猜想，对自车状态信息表现出如此高敏感性的自动驾驶系统，会具有相当大的安全风险。此外，由于规划结果主要由自车状态决定，模型无法反映其他模块的功能。例如，在比较 VAD(ID-6) 和 BEV-Planner++ (ID-12) 时，我们可以观察到它们在 L2 和碰撞率方面获得了基本相同的结果。有理由断言，我们的 BEVPlanner++ 设计以其简单性和有效性来表征，即使在不使用感知数据的情况下，也可以获得与其他更复杂的方法相当的结果。事实上，由于最终规划模块的性能主要受自车状态的影响，其他组件的设计不会显著影响规划结果。因此，我们认为利用自车状态的方法不能直接比较，不应该从这些比较中得出结论。

4.3.3. How about not using ego status?

鉴于自车状态对规划结果有显著影响，它引发了一个重要的调查：在开环端到端研究中排除自车状态是否可行且有益？

4.3.4. Neglected Ego Status in Perception Stage

事实上，一个关键问题是该方法是否真的完全消除了自车状态的影响。现有的开环端到端自动驾驶方法的管道基本上遵循图 1 (b)。鉴于自车状态对规划结果有很大影响，这些方法实际上清楚地解释了是否在规划器中引入自车状态。然而，UniAD 等方法忽略了在早期感知阶段引入自车状态对规划结果的影响。具体来说，UniAD 和 VAD 都使用 BEVFormer 作为其 BEV 生成模块。对于BEVFormer，它涉及到将自车状态投影到隐藏特征上并将其合并到BEV查询中，如图7所示。

图7，BEVFormer在BEV查询的初始化过程中整合了自车状态信息，这是当前端到端自动驾驶方法无法解决的一个细微差别。

该技巧对感知性能有边际影响，如表3所示。

表3，在BEVFormer中的整合自车状态，对感知的表现影响微乎其微

然而，当BEVFormer集成到端到端管道中时，在初始这个阶段引入自车状态会对最终的规划性能产生重大影响。

在BEV阶段去除自车状态输入后，VAD和UniAD的规划性能明显下降。

需要重要澄清的是，我们的立场并不反对自车状态；相反，我们认为在当前数据集和评估指标的背景下，自车状态的集成会显著影响，甚至决定规划结果。不幸的是，在现有的端到端自动驾驶方法中，感知模块中增加自车状态的结合往往被忽视。因此，在对不同方法的比较分析中，仔细研究自车状态的作用和影响，以确保评估的公平性和一致性。

4.3.5. Without Ego Status, the Simpler, the Better?

人们可能想知道为什么我们的 BEV-Planner，而不使用额外的感知任务（包括深度、高清地图、跟踪等）和自车状态，与其他方法相比，L2 距离和碰撞率取得了更好的结果（ID-1 和 4）。由于我们的 BEV-Planner 在与道路边界的intersection rate表现不佳，如果我们在基线中添加地图感知任务会发生什么?为了解决这些问题，我们通过将地图感知任务引入我们的管道中，设计了一个“BEV-Planner+Map”模型，主要遵循 UniAD 的设计。

如表4中所示，当引入地图感知时，模型在L2距离和碰撞率指标方面表现较差。唯一符合我们预期的是，地图感知的引入显著降低了道路边界的intersection rate。

通过BEV-Planner与BEV-Planner (init*)的比较，我们观察到使用 map-pretrained 权重可以提高性能。这一发现表明，在“BEV-Planner+Map”中集成MapFormer，所观察到的L2和碰撞率的降低，不是由于预训练的权重。

我们假设在大多数直线驾驶场景中，车道信息的添加可能不会产生明显有效的信息，但确实会引入一定程度的干扰。为了验证我们的假设，我们评估了这些方法在不同驾驶指令下的性能。

如表5和表6所示，添加地图信息会显著增加直线行驶指令的L2距离误差和碰撞率。

相比之下，对于转弯场景，地图信息的合并有效地降低了碰撞率。基于上述观察，我们可以初步得出以下结论：

在简单的直线驾驶场景中，感知信息的添加似乎并没有增强模型在 L2 距离和碰撞率方面的性能。相反，实现更复杂的多任务学习范式，实际上可能会导致模型的整体功效降低。
在更复杂的场景中，例如转弯，结合感知信息有利于规划目的。然而，鉴于现有评估数据集中转弯场景的比例相对较小（13%），感知信息的引入往往会对最终分析中的平均性能指标（L2 距离和碰撞率）产生不利影响。
必须开发一个更强大和有代表性的评估数据集。从当前评估数据集派生的指标并不完全具有说服力，无法准确反映模型的真实能力。

4.3.6. New metrics will bring new conclusions.

前面的方法主要以 L2 距离和碰撞率指标为中心。到目前为止，我们的讨论主要集中在这两个指标上。我们要强调的是， L2 距离和碰撞率这两个指标仅反映了模型规划能力的部分方面。不建议仅根据这两个指标评估模型的质量。

我们引入了一种新的度量标准来评估模型对地图的理解和遵守情况：道路边界的Intersection Rate。

如表1中所示，我们可以观察到 GoStright 策略经常与道路边界相交，这与我们的预期一致。就这个新指标而言，Ego-MLP 的性能比 UniAD 和 VAD 差。我们的方法 BEV-Planner 在这个指标上表现最差，因为它不使用任何地图信息。我们认为，开环自动驾驶系统的评估需要一个更加多样化和严格的评估框架。这将使这些系统的能力和局限性得到更准确的反映。

基于我们提出的新指标，我们还发现现有的碰撞率度量可以通过后处理来操纵。更具体地说，在UniAD中，使用非线性优化模块来细化端到端模型预测轨迹，确保预期的路径避开占用网格，从而防止碰撞。然而，这种优化虽然大大降低了与其他代理的碰撞率，但无意中引入了额外的安全风险。如表1所示，在其优化过程中缺乏足够的约束，例如地图先验的整合，显著增加了优化轨迹侵占道路边界的风险。在本文中，我们报告了UniAD的结果，默认情况下没有其后处理。

4.3.7. What the baseline learned in its BEV?

如图8所示，随着自车状态的影响，模型快速收敛。

考虑到从视觉图像生成有价值的 BEV 特征并比较不使用自车状态的 BEV-Planer 的收敛曲线的挑战，这进一步表明自车状态信息主导了学习过程。

由于我们的基线仅受自车轨迹监督，我们想知道模型从图像中学习什么。

如图9所示，我们观察到一个明显的现象:在BEV-Planner++中，特征地图的激活范围主要包括车辆周围的邻近区域，经常出现在车辆本身后面。这种模式标志着与BEV- planner的BEV功能有显著偏离，其BEV功能通常集中在车辆前方的区域。我们推测这是由于引入了自车状态信息，这否定了模型需要从 BEV 特征中提取信息。因此，BEV-Planner++ 方法几乎没有学习到任何有效的信息。

4.3.8. Failure Cases

尽管 nuScenes 数据集中的大多数场景相对简单，但它确实包含某些具有挑战性的场景，尤其是那些涉及连续拐角的场景。如图10所示，我们可以观察到，在导航高曲率弯曲时，具有各种设置的方法都产生了次优的预测轨迹。对于像转弯这样具有挑战性的场景，系统必须持续地做出改进的决策，评估开环自动驾驶系统会带来重大挑战。开环方法的一个限制是它们不会受到累积误差的影响。具体来说，在给定时间步长预测的轨迹极度错误的情况下，下一个时间步长的轨迹起点仍然基于GT轨迹。

我们使用的指标，与道路边界的intersection rate，擅长识别低质量的轨迹。然而，能够有效地突出高质量轨迹的适当度量仍然是一个值得进一步探索的有趣方向。

图10，在需要连续转弯的场景中，所有方法都预测次优轨迹。

5. Conclusion

本文中，我们对当前开环端到端自动驾驶方法中固有的缺点进行了深入的分析。我们的目标是促进端到端自动驾驶的逐步发展。

我们的结论总结如下：

现有基于nuScenes的开环自动驾驶模型的规划性能受到自车状态(速度、加速度、偏航角)的高度影响。由于涉及自车状态，模型最终预测轨迹基本上由它主导，导致感知信息的使用减少。
现有规划指标未能完全捕获模型的真实性能。模型评估结果可能因不同的指标而异。我们提倡采用更多样化和更全面的指标来防止模型在特定指标上实现局部最优，这可能会导致忽略其他安全隐患。
与在现有nuScenes数据集上，提升SOTA性能相比，我们认为开发更合适的数据集和指标是一个更关键和紧迫的挑战。

Limitation 不同的规划指标之间存在权衡。开环综合评估系统的设计是一个重大的挑战。虽然我们的基线方法在L2距离和碰撞率方面表现出色，但它在道路边界度量的intersection rate方面表现不佳，主要是因为我们的方法没有使用任何感知标注，例如高清地图等。

秒客网