本文是 ROB2018 中深度预测的冠军方案。
传统的深度预测方法利用视角、纹理、目标大小、目标位置、遮挡关系等作为深度预测的特征线索;当前使用的基于深度卷积网络的方法大多采用的是用于图像分类的特征提取网络,这些网络由于有池化层的操作或者步长较大的卷积曹祖,导致预测的分辨率较低,虽然可以通过转置卷积、跨层连接等方式进行分辨率的方法,但是这样网络结构的复杂度和时间开销和计算成本相应增加。本文提出的方案主要采用扩张卷积的方式进行多尺度特征融合,可以有效减少数据量。
网络结构
网络中的 ASPP部分采用不同扩张系数的扩张卷积操作,能够在不改变图像分辨率的前提下,有效得到不同感受野大小的卷积操作,进而得到多尺度融合特征。
特征提取
为了得到多尺度特征,采用上述的ASPP模块,该模块是将传统的特征提取网络中的压缩网络的部分变成了多尺度的扩张卷积操作,进而得到不同尺度的特征,用来表征不同大小区域的图像特征。
场景理解
如上图所示,传统的场景理解(上)采用全连接层,FC的每个元素与特征图中的所有像素相连接,以期得到全局的图像特征,再通过全连接层的操作还原成图像。本文采用的方法,首先通过一个核为k的池化层,得到一个池化之后的特征图,利用这个特征图,全连接层得到C个元素,将C个元素看作1x1xC 的特征图,运用1*1的卷积得到混合C个通道的特征,然后将这个特征复制得到新的生成的 WxHxC 的特征。
空间递增离散化
之前的离散深度估计方案将深度平均分为多个等级,如上图中所示,上图下所示为本文提出的方案,将深度图从深度下界到深度上界区域由小至大划分,这样划分实际上更符合场景很是情况。
得到离散化的结果之后,再根据 softmax 的结果进行预测。