FCN深度学习语义分割开山之作——学习笔记

《Fully Convolutional Networks for Semantic Segmentation》提出了首个端到端的针对像素级预测的全卷积网络（FCN），可直接处理任意大小的输入图像并输出相应大小的预测结果，超过了现有技术水平。

一、提出背景

传统的语义分割方法需要对每个像素进行分类，但计算成本高且复杂。该论文的目标是利用 FCN 实现端到端的像素级预测，以更高的效率达到更好的语义分割效果。

二、全卷积网络（FCN）的特点

全卷积网络通过移除全连接层，仅使用卷积层、池化层和激活函数，构建一个完全由卷积层组成的网络结构。由于没有固定的输入尺寸限制，FCN 可以接受任意大小的输入图像，并输出相应的像素级预测结果。

三、网络设计

提出了一种创新的 跳跃结构（skip architecture），将深层语义信息（表示语义的全局信息）与浅层外观信息（表示局部细节）结合。跳跃连接使得模型在预测过程中，不仅能捕获全局的语义信息，还能保留细粒度的空间信息，从而提高了分割精度。

在理解FCN的架构之前先回忆一下VGG的架构，如下图：

FCN就是将VGG后面的全连接层换成了卷积层，使VGG能够适用于语义分割领域，如下图所示：

1、跳跃连接

通过以下几种方式可以得到多尺度的特征图，将低层特征图（高分辨率但较浅）与高层特征图（低分辨率但语义丰富）结合，通过逐层的上采样生成更细致的分割图像。

（1）FCN-32s

FCN-32s架构如下图所示，就是将VGG的全连接层换成了卷积层FC6，FC7和1×1的卷积，然后用一个转置卷积实现上采样32倍。

（2）FCN-16s

FCN-16s就是将Maxpool4的特征图（如下图尺寸为 $\frac{h}{16}$ × $\frac{w}{16}$ ）与通过转置卷积上采样2倍的特征图进行合并后，再进行一个转置卷积实现上采样16倍。

（3）FCN-8s

FCN-16s就是将Maxpool4的特征图（如下图尺寸为 $\frac{h}{16}$ × $\frac{w}{16}$ ）与通过转置卷积上采样2倍的特征图进行合并后，再进行一个转置卷积实现上采样2倍，此时特征图尺寸为 $\frac{h}{8}$ × $\frac{w}{8}$ ，最后与Maxpool3的特征图（如下图尺寸为 $\frac{h}{8}$ × $\frac{w}{8}$ ）进行合并后，做最后一次转置卷积向上采样8倍。