51-27 DirveVLM：自动驾驶与大型视觉语言模型的融合

时间：2024-03-11 09:59:16

本文由清华大学和理想汽车共同发布于2024年2月25日，论文名称DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models.

DriveVLM是一种新颖的自动驾驶系统，旨在针对场景理解挑战，利用最近的视觉语言模型VLM，在视觉理解和推理方面表现出非凡的优势。DriveVLM模型具有三个关键模块：场景描述、场景分析和分层规划。

个人觉得本文偏工程性质，以点带面，可以窥探到很多东西。

17个自动驾驶meta-action元操作的定义。
40个自动驾驶场景定义。
全面的数据挖

相关文章

51-27 DirveVLM：自动驾驶与大型视觉语言模型的融合

