经典文献阅读之--DriveVLM(自动驾驶与大型视觉语言模型的融合)-1. 主要贡献

时间:2024-07-14 07:11:25

在nuScenes数据集和我们的数据集上进行的广泛实验展示了DriveVLM的优越性,尤其是在少样本情况下。此外,DriveVLM-Dual超越了最先进的端到端运动规划方法。总结本文的贡献有四个方面:

  1. 我们引入了DriveVLM,这是一个利用视觉语言模型(VLMs)进行有效场景理解和规划的新型自动驾驶系统。
  2. 我们进一步介绍了DriveVLM-Dual,一个结合了DriveVLM和传统自动驾驶管线的混合系统。DriveVLM-Dual实现了改进的空间推理和实时规划能力。
  3. 我们提出了一个全面的数据挖掘和标注流程,以构建一个场景理解和规划数据集,连同评估SUP(场景理解和规划)任务的指标。
  4. 在nuScenes数据集和我们的SUP-AD数据集上进行的广泛实验证明了DriveVLM和DriveVLM-Dual在复杂驾驶场景中的卓越性能。