图像分割:FDDWNET:一种轻量级的分割网络

时间:2024-05-22 10:08:55

FDDWNET: A LIGHTWEIGHT CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SEMANTIC SEGMENTATION

发表时间:2019.11.07
作者团队:南京有点大学
论文连接:FDDWNET: A LIGHTWEIGHT CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SEMANTIC SEGMENTATION
在GTX 2080Ti上对1024X512的图片语义分割,速度高达60 FPS,由于ICNet和DABnet等

介绍:

本文主要的贡献是对于轻量级的网络,在不增加模型参数的情况下,搭建更深的网络。以此在同数量级的网络参数下达到最优。亮点是提出了因式扩张深度可分卷积(FDDWC),这其实是借鉴了以往的深度可分离卷积以及拆分卷积以减少卷积参数的工作。

通常要保存实时分割同时保证分割一定的精确度,我们会在减少网络参数量和模型深度上做权衡。大体的方法可分为三种:

  • 1、压缩网络的方法:对网络进行剪枝,通过移除预训练部分和冗余网络来boost速度。
  • 2、降低数据bitwise的方法:将参数的类型将为低精度,用较少的bit位来表示,这不像压缩模型的方法,不需要对模型结构做改变,但是这样会大大降低模型的精确程度
  • 3、轻量级的卷积:直接针对计算成本较低的网络来提高效率,其中卷积因子分解常用于减小模型大小,例如ShuffleNets 和 MobileNets,采用depth-wise separable convolution深度可分离卷积。

另一种减轻CNNs的有效方法依赖于群卷积,其中输入通道和滤波核相应地被分解成一组组,每组独立卷积。这些轻量级网络虽然取得了令人印象深刻的结果,但它们更倾向于采用浅层网络架构来减少模型的复杂性,这可能会削弱可视化数据的表示能力,导致性能下降。

下面是对于不同的卷积方法的参数对比:,nn表示卷积核的size,ccc^\hat{c}分别是输入输出通道数,
其中DWDWDDWDDW是空洞卷积(dilation convolution)和可分离的空洞卷积,rr是dilation rate。
图像分割:FDDWNET:一种轻量级的分割网络
下图是对比不同网络结构的卷积方式,都是采用的残差网络结构,但是卷积的分解方式不同,从左到右依次是(a)bottleneck最基础的残差模式,(b)MobileNet的残差卷积结构,(c) non-bottleneck-1D 因子分解卷积 , (d) ShuffleNet ,(e)作者的 EERM 高效残差模型。
“Conv” 是标准的卷积, “DWConv”是深度可分离卷积,“FConv”为1因子分解卷积
图像分割:FDDWNET:一种轻量级的分割网络

FDDWC是结合了一维分解卷积[13]和深度可分离卷积[14]的优点。
如图中(e)的结构,将一组专门的一维滤波核(如1×n和n×1),按顺序与每个通道的输入进行卷积,得到输出通道上独立的滤波响应。然后,通过学习输入channel的线性组合,利用1×1的逐点卷积来恢复channel依赖关系。
[13]E. Romera, J. M. Alvarez, L. M. Bergasa, and R. Arroyo, “Erfnet: Efficient residual factorized convnet for real-time semantic segmentation,” IEEE TITS, vol. 19, no. 1, pp. 263–272, 2018
[14] S. Mehta, M. Rastegari, L. Shapiro, and H. Ha- jishirzi, “Espnet v2: A light-weight, power efficient, and general purpose convolutional neural network,” in arXiv:1811.11431v3, 2019.

下面是作者的网络结构图:
图像分割:FDDWNET:一种轻量级的分割网络
同样,文中的网络采用了U-NET中的跳跃连接思想,这机会在所有的分割和检测网络中都存在。
为了建立跳过的连接,第7层要经过两个额外的 EERMs,然后在解码器中增加两个上采样单元。注:在添加到第28层之前,第7层必须进行2次上采样,使得后续卷积和融合的分辨率相等。

分类效果对比:
图像分割:FDDWNET:一种轻量级的分割网络

总结

其他参数,速度比较这里就不啰嗦了,总的来说,这篇文章其实创新度不高,只是把之前的1-因子卷积和深度分离卷积和在一起用了下,同时用了可以加深深度减少参数的残差网络而已(感觉又是水文。。。,但是毕竟还是有一定的工作量的)。