MSFNet:多重空间融合网络进行实时语义分割（北航和旷视联合提出）

原文链接：https://arxiv.org/abs/1911.07217

主要内容

实时语义分割是一项具有挑战性的任务，因为需要同时考虑效率和性能，其在自动驾驶、机器人等工业应用中发挥着重要的作用。针对这一复杂的任务，论文提出了一种高效的卷积网络结构：多重空间融合网络（MSFNet）来完成快速和准确的感知。MSFNet在多特征融合模块的基础上，利用类边界监督来处理相关的边界信息，从而获得空间信息，扩大接收范围。网络最后对原始图像1/8大小的特征图进行上采样，在保持较高速度的同时，可以获得良好的分割结果。网络在Cityscapes和CAMVID数据集上的实验表明，与现有方法相比，所提出的方法具有明显的优势。更为具体地，对于1024×2048输入图像，它以41 FPS的速度在Cityscapes测试数据集上达到77.1%的mean IOU，而在Camvid测试数据集上以91 FPS的速度达到75.4%的mean IOU。

创新和改进点

1、论文提出了一种新的多特征融合模块（MFM），利用精心设计的空间感知池（SAP），在保持较小计算开销的同时，扩大接收范围，恢复空间信息的丢失

2、为了解决边缘相关空间信息的丢失问题，论文提出了一种新的类边界监控方法。

3、现有的分割方法主要集中在提高精度上，但是低延时实现实时性能是实际应用中最关键的问题，MSFNet主要针对速度进行改进。

4、在两个基准数据集上的实验表明，论文提出的方法在精度和推理时间上都优于大多数state-of-the-art方法。

网络结构

先前的大多数网络结构通过降低输入分辨率来加快推理速度，但这会严重丢失空间信息，尤其是和边缘相关的信息；还有一些方法通过减少通道来降低计算成本，但这会导致网络的精度急剧下降；除此之外，还有一些轻量级的浅层网络，但这些网络有明显的缺陷，因为它们通常太浅而无法获得足够的感受野。基于上述的种种缺陷，MSFNet在结构上做了相关改进和优化。

MSFNet:多重空间融合网络进行实时语义分割（北航和旷视联合提出）

MSFNet网络结构

MSFNet的这种结构扩大了感受野并重新弥补空间信息损失，同时保持较小的计算成本。MSFNet中的两个核心：MFM（多特征融合）和SAP（空间感知池化）。

MSFNet:多重空间融合网络进行实时语义分割（北航和旷视联合提出）

针对SAP：

1、多分支pooling进行处理，论文分支数设为5个pooling和1个unpooling。

2、输出多尺度feature map

针对MFM：

1、将SAP模块中具有相同分辨率的特征图进行聚合输出，最后一个32x down经过SAP处理后，产生6个尺度的feature map，其中，第3~5个feature map分别和前面4x down、8x down、16x down经过SAP处理后与之对应相同分辨率的feature map进行concat。

2、使用3x3的深度可分离卷积进行特征融合，由于聚合后通道数量很多，使用深度可分离卷积可以显著降低成本。

类别边缘信息监督模块：

为了恢复边缘空间信息，进一步提高分割效果，论文提出了两个独立的上采样分支。在上采样过程中，两个上采样分支不相互传递信息。在类别边缘方面，利用Ground Truth边界来监督分割任务，使得网络更加关注边缘类别信息，降低像素级别的错分率。

MSFNet:多重空间融合网络进行实时语义分割（北航和旷视联合提出）

最后将类别边缘监督信息和上分支feature map进行concat，然后使用深度可分离卷积进行特征融合，输出最终分割结果。

网络损失函数：

这里一共两类损失函数，一个是基于边缘信息的，一个是基于整体输出的，两类损失构成最终的loss，并用一个超参数λ来平衡：

MSFNet:多重空间融合网络进行实时语义分割（北航和旷视联合提出）

实验结果

论文给出的实验结果，综合考虑速度和mIoU，MSFNet效果最佳！

MSFNet:多重空间融合网络进行实时语义分割（北航和旷视联合提出）

上述内容，如有侵犯版权，请联系作者，会自行删文。

秒客网

MSFNet:多重空间融合网络进行实时语义分割（北航和旷视联合提出）

主要内容

创新和改进点

网络结构

实验结果

相关文章