从图像中恢复深度信息,是计算机视觉等领域的研究目标,其中立体视觉原理和方法,多视图几何理论和方法已经成熟,但这些方法在数据源方面要求至少两幅图像且存在视差,求解过程中需要特征点匹配,相机标定等核心步骤.
单幅图像的深度恢复一直是学术界研究的重要方向之一.三维场景映射成二维图像时,深度信息丢失,意味着从单幅图像中恢复深度信息是一个病态过程,因此是学术界研究的难题之一.
但是尽管三维场景映射成二维图像时深度信息丢失了,但图像中的颜色,纹理等特征直接或间接地反映了场景的深度信息,使得基于单幅图像的深度恢复成为可能.
从单幅图像中恢复深度信息的方法大致可以分为两类:
- 基于源图像特征的方法
- 基于机器学习的方法
基于源图像特征的方法仅从源图像本身出发,分析图像本身特征进行深度恢复,基于机器学习的方法需要收集大量样本,构建模型,学习模型参数,然后针对源图像进行深度推断.
基于源图像特征的方法步骤:
基于机器学习的方法步骤:
其中将基于源图像特征的方法中抽取一个基于相机模型的方法单独介绍.
- 基于相机模型的方法
图像是由显示场景中经相机映射而得,相机映射的数学表达式即为矩阵.经过映射的现实场景,空间对象的几何结构在图像中的变现形式发生变化,但仍有部分特征保持不变,这些特征称为不变量,通过这些不变量可以恢复图像中对象的几何结构.
基于规则几何特征的三维结构的恢复方法一般分为两个阶段:
- 建立图像与场景之间的关系,即求解相机矩阵
- 结合场景特征将点逆向映射,从而获得场景的三维信息
参考文献:
[1]王美珍.单幅图像深度恢复研究进展[EB/OL].北京:中国科技论文在线,2016.论文