文件名称:环境声音为视觉学习提供监督论文解读
文件大小:7KB
文件格式:MD
更新时间:2022-04-23 03:21:23
视听觉 CNN 无监督学习
声音传达了关于我们周围世界的重要信息——咖啡馆的喧嚣告诉我们附近有很多人,发动机的噪声低吼声让我们注意快速行驶的汽车,等等。利用音频信号与视觉信息之间的自然同步,并发的视觉和声音信息提供了丰富的训练信号,可用来学习视觉世界的有用表示。训练预测视觉场景内发生的声音的算法可用来学习与突出和独特的噪声相关的物体和场景原始(例如如人、汽车、流水等),这样的算法还可以学习将视觉场景与在其中发生的环境声音纹理相关联。文中展示了一个基于视觉CNN和声音纹理的模型,可预测视频帧中的自然声音,从而学习传达语义上有意义信息的视觉表示。