经典文献阅读之--DriveVLM(自动驾驶与大型视觉语言模型的融合)-1. 主要贡献

在nuScenes数据集和我们的数据集上进行的广泛实验展示了DriveVLM的优越性，尤其是在少样本情况下。此外，DriveVLM-Dual超越了最先进的端到端运动规划方法。总结本文的贡献有四个方面：

我们引入了DriveVLM，这是一个利用视觉语言模型（VLMs）进行有效场景理解和规划的新型自动驾驶系统。
我们进一步介绍了DriveVLM-Dual，一个结合了DriveVLM和传统自动驾驶管线的混合系统。DriveVLM-Dual实现了改进的空间推理和实时规划能力。
我们提出了一个全面的数据挖掘和标注流程，以构建一个场景理解和规划数据集，连同评估SUP（场景理解和规划）任务的指标。
在nuScenes数据集和我们的SUP-AD数据集上进行的广泛实验证明了DriveVLM和DriveVLM-Dual在复杂驾驶场景中的卓越性能。

秒客网