本文由清华大学和理想汽车共同发布于2024年2月25日,论文名称DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models.
DriveVLM是一种新颖的自动驾驶系统,旨在针对场景理解挑战,利用最近的视觉语言模型VLM,在视觉理解和推理方面表现出非凡的优势。DriveVLM模型具有三个关键模块:场景描述、场景分析和分层规划。
个人觉得本文偏工程性质,以点带面,可以窥探到很多东西。
- 17个自动驾驶meta-action元操作的定义。
- 40个自动驾驶场景定义。
- 全面的数据挖