高德地图首席科学家任小枫QA答疑汇总丨视觉+地图技术有哪些新玩法?

时间:2024-01-26 20:59:50

上周,阿里巴巴高德地图首席科学家任小枫在#大咖学长云对话#的在线直播活动上就计算机视觉相关技术发展以及在地图出行领域的应用与大家做技术交流,直播间互动火爆,尤其在QA环节,学弟学妹们纷纷就感兴趣的视觉应用、AR导航、定位技术、5G、职业发展等话题提问,任小枫做了精彩回答。我们整理了问答内容,分享给大家。

视频回放地址

https://vku.youku.com/live/ilproom?id=8064786

 

任小枫博士,现任阿里巴巴高德地图首席科学家,研究员,主要负责视觉技术在地图和出行领域的应用和创新。加入阿里巴巴前,他在2013到2017年间供职于亚马逊,是亚马逊的资深主任科学家和AMAZON GO的算法负责人。浙江大学本科毕业,加州大学伯克利分校博士,华盛顿大学计算机系客座教授,CVPR/ICCV/AAAI等会议领域主席,IEEE PAMI副主编。

视觉技术发展及应用

提问:计算机视觉在高精度地图构建中的应用有哪些?

任小枫:视觉算法对于高精度地图构建是核心的技术,主要应用在资料对齐和精度保证、识别和地图数据自动化生成、视觉定位和高精地图更新等。

提问:您觉得现有的基础学科研究水平与硬件水平能否保证视觉技术的快速发展?视觉技术发展在近期会不会遇到较难突破的瓶颈?

任小枫:经过了前几年深度学习技术在视觉各个领域的快速发展,一定程度上说,深度学习和视觉的基础技术现在都遇到了瓶颈。或者说,没有开始的时候发展的那么快,有很多难题需要解决,也可能需要创造新的技术。对于应用而言,我觉得基础技术和硬件水平目前大致是够用的,更重要的是如何把技术用好,有针对性的去突破技术瓶颈。

提问:单目标跟踪SOT(给定模版跟踪单个目标,类别无关/可跨域)近两年的进展非常显著,具有解决快速跟踪的潜质,想请问目前有没有在地图业务这边比如视觉定位(VO中跟踪路标)/AR导航(短时跟踪)中应用的前景?如果有的话,请问需要解决什么样的需求问题(鲁棒/速度等)?

任小枫:跟踪是一个视觉基础技术,在很多场景都有应用。对于导航和出行,确实在AR导航、定位上能起到核心作用,减少识别(检测)的计算需求,并增加鲁棒性和平滑性。但是在很多实际应用中,跟踪的使用和需求和学术界单目标跟踪的设置会有所不同。

提问:视觉特征是否能结合语义给地图的导航出行服务带来更好的体验呢?

任小枫:视觉可以提供高精度的定位,也可以提供场景的语义理解,肯定可以带来导航和出行更好的体验。但是具体的产品体验和技术实现还需要进一步的探索和积累。

提问:计算机视觉下一步的重难点是哪个方向?未来的前景如何?

任小枫:计算机视觉是一种通用的感知手段,信息量很大,可以用于多种感知任务,可以远距离观测,应用的前景是很广阔和美好的。下一步的难点,除了基础技术需要进步和突破外。还有:如何找到视觉能发挥核心作用的应用场景,如何根据实际问题综合各类算法设计整体方案,如何较好的解决计算资源的问题,如何结合其他传感器和先验知识等问题。

AR导航

提问:AR导航是实时图像计算的吗?设备算力可以打标吗?

任小枫:AR导航是实时图像计算,在低算力的条件下实现导航和辅助驾驶功能。我们也尽可能的进行“预计算”,事先计算好环境中的一些元素,来配合实时计算。

提问:AR导航最后通过什么来展示内容?显示屏还是HUD?

任小枫:AR导航有多种产品形态:中控屏、HUD、后视镜、仪表盘,这些都是正在使用/潜在使用的展示方式。

提问:有一个非技术性的问题,AR导航会不会过度吸引驾驶员的注意力,导致他/她忽略车辆两侧的交通?

任小枫:这是一个产品设计的好问题,也是我们一直在打磨和寻求平衡的问题。一个设计的好的AR导航产品,会考虑到不过多吸引注意力。

提问:安全辅助驾驶会有疲劳驾驶检测吗?

任小枫:高德的AR导航目前只有朝外的单目相机,没有支持疲劳驾驶检测。对车内的监控,包括疲劳检测,是视觉技术在安全辅助驾驶的一个重要应用。

定位技术

提问:室内定位现在主流实现技术有哪些?基于声信号的室内导航前景好吗?

任小枫:室内定位有多种基于传感器的技术,包括WiFi,Bluetooth,RFID,Ultra-Wideband,也包括声信号。我觉得室内定位的发展,如果需要部署传感器,很大程度上不是取决于技术和定位精度,而是是否有好的应用。WiFi定位的普及是因为室内网络需要WiFi。iPhone 11装了UWB芯片可以近距离文件传输。

提问:GPS定位那么大的差距是什么原因导致的?因为多路径效应吗?

任小枫:GPS定位不准有多个原因,主要是在“城市峡谷”(高楼林立)的场景。多路径效应是其中最重要的因素,因为环境的折射(特别是像玻璃这样的高反光材料),导致GPS位置计算不准。其他方面还有因为楼宇/高架桥的遮挡导致能观察到的卫星数降低,空气(特别是带电离子和水蒸气)的干扰,等多种原因。

提问:高德如何解决GPS漂移的问题?

任小枫:这是一个复杂的问题。基于手机传感器,我们结合实际的驾驶和步行场景做了很多优化,包括GPS置信度分析,和IMU结合,和路网结合等。视觉定位是我们在开拓的解决定位不准的一个新方向。

地图基础技术

提问:目前高德地图图层有哪些?是语义级高精度地图吗?

任小枫:高德地图有多种地图数据形态,从标准地图(高德App上看到的),到车道级地图,到高精地图。精度不同,对应的应用不同。多种地图中都有语义信息,但是语义信息的内容和精度会有不同。

提问:深度相机和普通的相机有什么区别?

任小枫:普通相机获取的信息是二维RGB图像,没有三维信息。深度相机在每个像素上,除了RGB颜色之外,也同时获取深度(距离)信息,一般是利用主动模式(time-of-flight, structured light等)。现在很多主流手机上都已经配备了深度相机。

提问:高德地图对道路信息是怎么采集的,道路有变化地图会实时更新么?

任小枫:高德地图道路信息有多个来源,主要是依靠低成本的车载视频资料。道路相关信息是在随时变化的,我们会不断的采集最新资料并制作更新地图数据,及时上线应用。

提问:室内三维空间(比如多层的商业大楼)地图绘制的难点有哪些?

任小枫:室内三维地图绘制最大的难点在于数据采集。三维重建的方法需要有多个角度的图像。基于深度相机的移动建模方法精度上不一定能满足需求。

新人职业成长

提问:从视觉和图像领域的学术研究领域到公司商业计算机视觉应用技术开发需要补充哪些知识?

任小枫:我觉得主要要考虑的不是补充具体的知识,而是要注意培养自己的各方面的能力:(1)对实际问题的分析和解决的能力;(2)动手能力;(3)快速学习和拓展知识的能力。

提问:从事计算机视觉领域该如何制定职业规划?

任小枫:和其他行业和技术方向的职业规划没有本质的区别,要结合自身的长/短处和兴趣,找到自己合适的工作方向,逐步提高技术深度,广度,高度,综合能力,一步步做出实际结果发展职业。

提问:请问现在从事视觉领域工作是否一定要具备深度学习的技能?

任小枫:计算机视觉现在大量的使用深度学习技术,深度学习的知识和技术我觉得是必须的。有一些和几何相关的子领域,比如三维重建、SLAM/VIO,深度学习应用的还不多,但是(1)后续预计会有更多的深度学习应用;(2)从提高技术广度和视野出发,也需要一定程度上了解深度学习。

业界热点及其他

提问:自动驾驶会用到5G技术吗?

任小枫:目前看来,5G技术会在自动驾驶上有多种应用,但对于L4/L5全自动驾驶,我觉得5G并不能从根本上解决自动驾驶安全性(和舒适性)的难题。

提问:跟踪和定位中的计算端和云如何配合?

任小枫:大体上来说,实时性要求高的,和传感器结合密切的,会在端上完成;和地图结合密切的,需要用到大量参考数据的,会在云上完成。

提问:谷歌地图有一个街景地图的模块用到了许多图像识别的技术,街景地图怎么拼成的?以及街景发展趋势是怎样的?

任小枫:谷歌地图的街景地图主要来自于谷歌自己的街景采集车,车上载有高质量的相机和组合惯导等传感器。街景地图主要是一个拼接的过程。街景地图很有意思,但还没有对导航和出行的体验带来根本的变化。谷歌最近的AR步行导航(这个和高德的车载AR导航不同)是基于街景地图的一个新应用。

提问:可穿戴设备(类似眼镜、智慧助手等)在视觉技术上如何更好的落地以及产品化?

任小枫:硬件(AR展示,算力)和体验是可穿戴设备要真正落地和普及的主要问题。Google Glass作为一个超前的产品,在硬件上受限制太大。目前AR眼镜的应用主要在企业场景。我个人觉得可穿戴设备作为个人助手(包括导航,信息展示等)的应用前景是很好的,但现在硬件条件可能还不成熟。