单目深度估计:局部平面信息导引深度估计网络BTS

时间:2024-04-03 19:57:28

论文及作者信息:

Hanyang University韩国

Jin Han Lee, Myung-Kyu Han, Dong Wook Ko and Il Hong Suh

【2019】From big to small Multi-scale local planar guidance for monocular depth estimation

源:https://github.com/cogaplex-bts/bts

应用及分类:

单目深度估计从输入形式上有三种:1,single image 2,monocular sequence 3,stereo supervision training+single image inference

单目深度估计从建模方法上分为三种:A,dense pixel-level continuous regression B,classification C, quantized regression(又称ordinal regression)

BTS属于1A

BTS基本信息

0.有监督、端到端、单张RGB图片作为输入,输出单张深度图

1.网络架构:编解码结构+skip connection+ ASPP+LPG,如下图

  ASPP: atrous spatial pyramid pooling  

  LPG: novel local planar guidance  (BTS的主要技术点)

2.局部线性假设LPG模块: novel local planar guidance,将internal features回复到full resolution, 认为LPG模块直接定义或者说表达了internal features和最后full depth之间的关系。

单目深度估计:局部平面信息导引深度估计网络BTS

 

技术点解读:LPG模块

单目深度估计:局部平面信息导引深度估计网络BTS

0.   1x1卷积用了好几次,用一次通道数降1/2,最后降到#channel=3.

1.Channel1 2 物理意义:平面法向量,代表了平面法向量的两个*度polar and azimuthal anglesθφ。通过公式变换为单位法向量unit normal vector(n1,n2,n3)。具体变换公式:

单目深度估计:局部平面信息导引深度估计网络BTS

2.Channel3的物理意义:planeorigin的垂直距离(perpendicular distance),相当于一个bias。

3.每个像素对应一组(n1,n2,n3,n4)

单目深度估计:局部平面信息导引深度估计网络BTS

4.上述( n1,n2,n3,n4 )通过射线平面相交,得到局部kxk patch的深度线索:

单目深度估计:局部平面信息导引深度估计网络BTS

LPG效果:

单目深度估计:局部平面信息导引深度估计网络BTS

实验信息:

平台four NVIDIA 1080ti GPUs

评估指标:论文中常用指标,错误率指标SqRel, AbsRel, RMSE, log10, RMSElog 以及精度指标δ

数据集:size 352 x 704 for KITTI and 416 x 544 for NYU Depth V2 datasets

  NYU2using 249 scenes for training and 215 scenes (654 images) for testing

  KITTI697 images covering a total of 29 scenes are used for evaluation, and the remaining 32 scenes of   23,488 images are used for the training (同Eigen工作划分模式,即Eigen split

辅助注释:

Ours-xxxNet,或者提到的base network是指编码部分采用的架构,编码外其他部分相同:ResNet-101 , ResNext-101  and DenseNet- 161 ……这些网络在ILSVRC dataset预训练,后续训练中,网络最开始的两层参数固定,不做更新。

单目深度估计:局部平面信息导引深度估计网络BTS

单目深度估计:局部平面信息导引深度估计网络BTS

单目深度估计:局部平面信息导引深度估计网络BTS

单目深度估计:局部平面信息导引深度估计网络BTS

 

选用不同网络做编码器对比结果:

单目深度估计:局部平面信息导引深度估计网络BTS

阅读遗留问题

1. 损失函数的构造部分没有看
2. 网络计算量
 

存疑部分:

LPG最后一步H/4如何通过ci恢复到H