论文及作者信息:
Hanyang University(韩国)
Jin Han Lee, Myung-Kyu Han, Dong Wook Ko and Il Hong Suh
【2019】From big to small Multi-scale local planar guidance for monocular depth estimation
开源:https://github.com/cogaplex-bts/bts
应用及分类:
单目深度估计从输入形式上有三种:1,single image 2,monocular sequence 3,stereo supervision training+single image inference
单目深度估计从建模方法上分为三种:A,dense pixel-level continuous regression B,classification C, quantized regression(又称ordinal regression)
BTS属于1A
BTS基本信息
0.有监督、端到端、单张RGB图片作为输入,输出单张深度图
1.网络架构:编解码结构+skip connection+ ASPP+LPG,如下图
ASPP: atrous spatial pyramid pooling
LPG: novel local planar guidance (BTS的主要技术点)
2.局部线性假设LPG模块: novel local planar guidance,将internal features回复到full resolution, 认为LPG模块直接定义或者说表达了internal features和最后full depth之间的关系。
技术点解读:LPG模块
0. 1x1卷积用了好几次,用一次通道数降1/2,最后降到#channel=3.
1.Channel1 2 物理意义:平面法向量,代表了平面法向量的两个*度polar and azimuthal angles:θ,φ。通过公式变换为单位法向量(unit normal vector)(n1,n2,n3)。具体变换公式:
2.Channel3的物理意义:plane和origin的垂直距离(perpendicular distance),相当于一个bias。
3.每个像素对应一组(n1,n2,n3,n4)
4.上述( n1,n2,n3,n4 )通过射线平面相交,得到局部kxk patch的深度线索:
LPG效果:
实验信息:
平台:four NVIDIA 1080ti GPUs
评估指标:论文中常用指标,错误率指标SqRel, AbsRel, RMSE, log10, RMSElog 以及精度指标δ
数据集:size 352 x 704 for KITTI and 416 x 544 for NYU Depth V2 datasets
NYU2:using 249 scenes for training and 215 scenes (654 images) for testing
KITTI:697 images covering a total of 29 scenes are used for evaluation, and the remaining 32 scenes of 23,488 images are used for the training (同Eigen工作划分模式,即Eigen split)
辅助注释:
Ours-xxxNet,或者提到的base network是指编码部分采用的架构,编码外其他部分相同:ResNet-101 , ResNext-101 and DenseNet- 161 ……这些网络在ILSVRC dataset预训练,后续训练中,网络最开始的两层参数固定,不做更新。
选用不同网络做编码器对比结果: