深度学习分割网络总结（重点介绍pspnet）

FCN，Segnet，RefineNet，PSPNet，Deeplab v1&v2&v3
这些分割网络的基础是CNN。
注：分割网络的预测是基于像素点的预测。
分割问题很难使用CNN的原因：
原因1：全连接层结构，
原因2：存在池化层。池化层不仅能增大上层卷积核的感受野，而且能聚合背景同时丢弃部分位置信息。然而，语义分割方法需对类别图谱进行精确调整，因此需保留池化层中所舍弃的位置信息。
CRF方法是一种基于底层图像像素强度进行“平滑”分割的图模型，在运行时会将像素强度相似的点标记为同一类别。加入条件随机场方法可以提高1~2%的最终评分值。
FCN网络
论文：Fully Convolutional Networks for Semantic Segmentation 于2014年11月14日提交到arvix：https://arxiv.org/abs/1411.4038

主要贡献：

将端到端的卷积网络推广到语义分割中；

重新将预训练好的Imagenet网络用于分割问题中；

使用反卷积层进行上采样；

提出了跳跃连接来改善上采样的粗糙程度。

缺点：
FCN不能有效的处理场景之间的关系和全局信息

Segnet网络
论文翻译：https://blog.csdn.net/u014451076/article/details/70741629

https://blog.csdn.net/fate_fjh/article/details/53467948

RefineNet网络
RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation 于2016年11月20日提交到Arxiv

https://arxiv.org/abs/1611.06612

带有精心设计解码器模块的编码器-解码器结构；

所有组件遵循残差连接的设计方式。

使用空洞卷积的方法也存在一定的缺点，它的计算成本比较高，同时由于需处理大量高分辨率特征图谱，会占用大量内存，这个问题阻碍了高分辨率预测的计算研究。
Deeplab v1&v2网络
https://blog.csdn.net/c_row/article/details/52161394
金字塔场景解析网络(PSPNet)
贡献：
1）通过多尺度 Pooling 的方式得到不同 Scale 的 Feature，Concat 得到判别的多尺度特征；
2）加入额外的深度监督 Loss，我们开发了一种有效的深网优化策略,在基于深度监督损失ResNet上制定有效的优化策略。
深度学习分割网络总结（重点介绍pspnet）
这是专门针对ResNet的。虽然ResNet已经通过残差块来解决梯度消失的问题，但作者认为加一个loss层会使优化问题更简单。于是在如图位置加了一个loss。最后乘以一个权重alpha 与最后一层连接的loss相加，形成最终的loss。

3）提出了一个金字塔场景解析网络，能够将难解析的场景信息特征嵌入基于FCN****预测框架中。
4）构建了一个实用的系统，用于场景解析和语义分割，其中包含了所有关键的实现细节。
5）能够获取全局场景。
特点：
其一是多尺度特征组合。因为在深层网络中，更高层次的特性包含更多的语义含义和较少的位置信息。低层次对应位置信息。结合多尺度特性可以提高性能。
其二是基于结构预测。提倡工作[3]使用条件随机字段(CRF)作为后处理来细化分割结果。通过端到端的建模方法改进的网络。
PSPnet网络结构：
深度学习分割网络总结（重点介绍pspnet）
给定一个输入图像(a),我们首先使用CNN获得特征图来得到最后卷积层(b),然后一个金字塔解析模块应用于收获不同次区域表示,其次上采样和连接层以形成最终的特征表示,有局部和全局上下文信息©。最后，将该表示输入到卷积层中，以获得最终的每个像素预测(d)

主体网络由ResNet101构成，使用了残差网络、空洞卷积和降维卷积的方法（先使用11降低维度，然后使用33卷积，再用1*1恢复维度）。网络中一共出现三次特征图缩小，一次使用maxpool，两次使用conv，每次减少二分之一大小，最终得到的特征图是原尺寸的1/8，最后使用双线性插值恢复原尺寸。

**金字塔池模块融合了四个不同金字塔规模的特征。**红色突出显示的最粗级别是全局池，以生成单个bin输出。下面的金字塔级别将feature map分割为不同的子区域，并形成不同位置的集合表示。金字塔池模块中不同级别的输出包含不同大小的feature map。为了保持全局特征的权重,我们用1*1卷积后每个金字塔级别降低维度的上下文表示为1 \ N如果原来级别大小的金字塔是N .然后我们直接upsample低维特征图得到相同的大小特征与原始特征映射通过双线性插值。最后，将不同层次的特性连接成最终的金字塔汇聚全局特性。

采用一个pre-trained网络ResNet [13],并加入dilated network来提取feature map，得到的feature map的尺寸是原始图的1/8(这在Deeplab在解释过)。

采用4层金字塔模型，最后通过卷积后连接起来。
缺点：
主流的场景解析算法基于FCN（全卷积网络），存在的问题是没有利用整体的场景信息。
总结：
能够融合合适的全局特征，将局部和全局信息融合到一起。并提出了一个适度监督损失的优化策略，在多个数据集上表现优异。

Deeplab v3网络
Rethinking Atrous Convolution for Semantic Image Segmentation 于2017年6月17日提交到Arxiv：https://arxiv.org/abs/1706.05587

https://blog.csdn.net/zziahgf/article/details/75314719

改进了空间维度上的金字塔空洞池化方法(ASPP)，采用全局平均池化；该模块级联了多个空洞卷积结构。与在DeepLab v2网络、空洞卷积中一样，这项研究也用空洞卷积/多空卷积来改善ResNet模型。

这篇论文还提出了三种改善ASPP的方法，涉及了像素级特征的连接、加入1×1的卷积层和三个不同比率下3×3的空洞卷积，还在每个并行卷积层之后加入了批量归一化操作。

级联模块实际上是一个残差网络模块，但其中的空洞卷积层是以不同比率构建的。这个模块与空洞卷积论文中提到的背景模块相似，但直接应用到中间特征图谱中，而不是置信图谱。置信图谱是指其通道数与类别数相同的CNN网络顶层特征图谱。

该论文独立评估了这两个所提出的模型，尝试结合将两者结合起来并没有提高实际性能。两者在验证集上的实际性能相近，带有ASPP结构的模型表现略好一些，且没有加入CRF结构。

这两种模型的性能优于DeepLabv2模型的最优值，文章中还提到性能的提高是由于加入了批量归一化层和使用了更优的方法来编码多尺度背景。

秒客网

深度学习分割网络总结（重点介绍pspnet）

相关文章