文件名称:遥感中的多模态数据检索-研究论文
文件大小:1.26MB
文件格式:PDF
更新时间:2024-06-30 02:44:08
Remote Sensing; Multimodal; Image-text
我们周围的世界本质上是多模态的:看场景、听声音、看视频和品尝风味。 最近,处理多种模态的多模态应用程序,尤其是图像-文本检索(匹配)是计算机视觉一般文献中广泛和当前感兴趣的主题。 然而,大多数现有的遥感图像检索方法依赖于图像-图像匹配(单峰)的概念。 在本文中,我们旨在引起遥感界研究人员对最近方向多模态数据检索(匹配)的关注,特别是图像文本匹配,这被认为是最近的研究方向,因为它对人类智能的重要性鉴于深度学习技术的巨大进步,通过突出研究人员面临的三个主要挑战(多模态表示、相似性测量和数据集可用性),掌握视觉和文本内容之间的关系,并弥合这些不同内容(模态)之间的语义鸿沟在这条研究线。