单幅图像场景理解,论文解读

时间:2021-06-02 06:32:05

Karsch K, Liu C, Kang S B. Depth Transfer: Depth Extraction from Video Using Non-Parametric Sampling[J]. IEEE Transactions on Pattern Analysis \& Machine Intelligence, 2014 (11): 2144-2158.

已知RGB-D数据库,输入一幅RGB图像,使用GIST特征,找出其在数据库中的topK,然后利用SIFT flow把topK对应的深度图warp到输入图像上,针对K个深度图,使用能量优化的方法进行求解,得到输入图像的深度图。能量方程的建立何求解是亮点,其余都是Ce Liu两篇论文的基础,2011年PAMI:SIFT flow和Non-Parametric。此外,该项工作在视频2D-to-3D效果很不错。


Saxena A, Chung S H, Ng A Y. Learning depth from single monocular images[C]//Advances in Neural Information Processing Systems. 2005: 1161-1168.

3个尺度,每个尺度上的patch以及4领域,3*5=15,A0垂直方向上4个,每个patch与17个滤波器作卷积,(卷积乘方1,2)得到34个结果,(15+4)*34作为绝对深度特征。相对深度特征,每个patch与17个滤波器卷积,得到很多运算结果,使用10bins的直方图,相当于每个patch有170维的特征,垂直两个邻近的patch特征向量相减,结果作为相对深度特征,最后使用MRF来学习参数模型。


Saxena A, Chung S H, Ng A Y. 3-d depth reconstruction from a single still image[J]. International journal of computer vision, 2008, 76(1): 53-69.

相比前一篇,该篇论文增加利用立体视差得到深度的数据项。


Saxena A, Sun M, Ng A Y. Make3d: Learning 3d scene structure from a single still image[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2009, 31(5): 824-840.

分割为很多superpixels,建立深度与超像素参数之间的关系,特征选取与前面相同,然后建立MRF模型:第一项建立图像特征与平面参数之间的关系,目标是每个超像素里的深度与ground-truth保持一致;第二项分为三个部分,第一部分,邻域的超像素,3D Model除了遮挡的关系,很可能是相连接的,目标是两个超像素相连接的区域深度一致。第二部分,假如邻域超像素之间有相似的特征,没有边沿存在,那么3D Model很可能是共面的,目标是沿着某一方向,相机到两个超像素的深度相同。第三部分,图像平面是直线,那么3D Model也是直线,目标是在3D Model中,一条直线通过一个superpixel,相机沿着某方向到另一个超像素的深度与到这条直线的深度相同;第三项是多幅图像根据视差估计得到的深度。最后使用线性规划求解。


Fouhey D F, Gupta A, Hebert M. Unfolding an indoor origami world[M]//Computer Vision–ECCV 2014. Springer International Publishing, 2014: 687-702.   

定义容易识别和可推断三维结构的基元,对大量通过HOG检测过的patch以及增加的负样本,进行聚类得到基元(很多个),然后使用学习到的基元对输入图像进行3D场景解释,得到法向量,其方法与depth transfer相类似。


Fouhey D F, Gupta A, Hebert M. Data-driven 3D primitives for single image understanding[C]//Computer Vision (ICCV), 2013 IEEE International Conference on. IEEE, 2013: 3392-3399.

找到单幅图像的三个消隐点,每两个消隐点通过光速扫描可以得到一个网格平面,建立三个网格与图像对应位置的对应关系,确定图像某个区域是取哪个网格里哪个cell的值,使用第一篇论文的label transfer的方法,然后smooth,再引入凸结构或者凹结构的边进行推断相邻表面的法向量,保证推断结构的准确性和完整性。