本文由新加坡国立大学,Oxford,南开大学联合提出。
背景:空间池化在捕获用于场景分析等像素级预测任务的远程上下文信息方面非常有效。
传统池化:规则形状N×N的常规空间池化
本文的方法:引入一种称为条带池化的新池化策略来重新考虑空间池化的公式,该策略考虑了一个长而窄的核,即1×N或 N×1。
本文基于条带池化,通过以下步骤研究空间池化体系结构设计:
1)引入一种新的条带池化模块,该模块使骨干网络可以有效地对远程依赖进行建模
2)提出了一个以各种空间池化为核心的构建块
3)比较条带池化和常规空间池化技术的性能。
优势:两种基于池化的设计都是轻量级的,并且可以在现有的场景解析网络中充当有效的即插即用模块
代码 https://github.com/Andrew-Qibin/SPNet.git
1.引言
背景:场景解析,也称为语义分割,旨在为图像中的每个像素分配一个语义标签。作为最基本的任务之一,广泛应用于计算机视觉和图形应用。
进展:基于全卷积网络(FCN)的方法在场景解析种捕获高级语义特征的能力方面取得了很大的进步。
传统方法:提高对CNN中的远程依赖建模的能力的一种方法是采用自注意力或non-local模块;扩展卷积,目的是在不引入额外参数的情况下扩展CNN的感受野;概述图像全局线索的全局/金字塔池化。
缺陷:这些方法大多会叠加局部卷积和池化操作,因此无法很好地应对复杂问题。限制了它们在捕获现实场景中广泛存在的上下文的灵活性。
本文的方法:为了更有效地捕获远程依赖,本文利用空间池化来扩大CNN的感受野并收集信息性上下文,提出了条带池化的概念。
作为全局池化的替代方法,条带池化具有两个优点。
1.如图1a和1c的顶部所示,它沿一个空间维度部署较长的内核,因此可以捕获孤立区域的远程关系。
2.沿其他空间维度保持狭窄的内核,这有助于捕获局部上下文并防止无关区域干扰标签预测。
与空间池化的区别:集成长而狭窄的池化内核使场景解析网络可以同时聚合全局和本地上下文。
核心思想:首先,设计一个条带池化模块(SPM),以有效地扩大骨干网络的感受野。SPM由两条途径组成,它们专注于沿水平或垂直空间维度编码远程上下文。对于合并特征图中的每个空间位置,它会对其全局水平和垂直信息进行编码,然后使用这些编码来平衡其自身的权重以进行特征修饰。
此外,本文提出了一种附加残差构建模块,称为混合池化模块(MPM),在高级语义级别上对远程依赖进行建模。它通过利用具有不同内核的池化操作来收集内容丰富的上下文信息,以探查具有复杂场景的图像。为了证明所提出的基于池化的模块的有效性,本文介绍了SPNet,它将这两个模块都集成到ResNet主干中。
图 1 条带池化与空间池化
这项工作的贡献如下:
(i)研究空间池化的常规设计并提出了条带池化的概念,该概念继承了全局平均池化的优点,可以收集长期依赖关系,同时关注局部细节。
(ii)设计了条带池化模块和混合池化模块。 这两个模块作为有效的附加模块插入到任何骨干网络中,以生成高质量的分段预测。
(iii)提出将上述两个基于池化的模块集成到单个体系结构中的SPNet,它在基准上实现了重大改进,并在广泛使用的场景解析基准数据集上建立了最新的技术成果。
2.方法
总览:首先给出条带池化的概念,然后介绍基于条带池化的两种模型设计,以演示其如何改善场景解析网络。最后,描述解析网络的整个体系结构。
图 2 条带池化模块
2.1条带池化
先简短回顾一下空间平均池化 令,是一个二维输入张量,其中H和W分别是空间的高度和宽度。 在平均池化层中,需要池化的空间范围(h×w)。其中h除以H,w除以W。那么合并后的输出y也是一个具有高度和宽的二维张量,平均池化操作可以写为:
其中和。 在等式1中y的每个空间位置对应于大小为h×w的合并窗口。
上述合并操作已成功应用于收集远程上下文的工作。如图1所示,当处理具有不规则形状的对象时,它可能包含许多不相关的区域。
条带池化 为了解决上述问题,提出“条带池化”的概念,该概念使用带状池化窗口沿水平或垂直维度执行池化,如图1的顶部所示。给定二维张量,在条带合并中,需要合并的空间范围(H,1)或(1,W)。与二维平均池化不同,条带池化对行或列中的所有特征值进行平均。 因此,水平条带合并后的输出可写成
垂直条带池化后的输出可写成
给定水平和垂直条带池化层,由于长而窄的内核,很容易在离散分布的区域之间建立长期依赖,并对带状的区域进行编码。由于其沿其他维度的窄核形状,它还专注于捕获局部细节。这些特性使条带池化与依赖于方形内核的常规空间池化不同。 下文将描述如何利用条带池化(等式2和等式3)来改善场景解析网络。
2.2条带池化模块
背景:扩大骨干网络的感受野对场景解析是有益的。
目睹:本节介绍通过利用条带池化来帮助骨干网络捕获远程上下文。
概述:提出了一种条带池化模块(SPM),该模块利用水平和垂直条带池化操作来收集来自不同空间维度的远程上下文。图2描述了SPM。
流程:设为输入张量,其中C表示通道数。首先将x输入两个平行的路径,每个路径包含一个水平或垂直的条带池化层,然后是一维卷积层,其内核大小为3,用于调制当前位置及其相邻特征。得到和。为了获得包含更有用的全局先验的输出,将和组合如下,得出:
然后,将输出z计算为
其中表示元素乘法,σ是Sigmoid型函数,f是1×1卷积。
上述过程允许输出张量中的每个位置与输入张量中的多个位置建立关系。 在图2中,输出张量中以黑框为边界的正方形连接到所有具有相同水平或垂直坐标的位置(被红色和紫色框包围)。通过重复上述汇总过程,可以在整个场景中建立远程依赖关系。
此外,根据逐元素乘法,SPM也可以被视为一种注意力机制,可以直接应用于任何经过预训练的骨干网络,而无需从头开始进行训练。
优点:与全局平均池化相比,条带池化考虑的范围很长但很窄,避免了在彼此相距较远的位置之间建立大多数不必要的连接。与需要大量计算才能在每对位置之间建立关系的基于注意力的模块相比,SPM轻巧,可以轻松地嵌入到任何基础模块中,以提高捕获远程空间依存关系和利用相互之间通道依赖性的能力 。
2.3混合池化模块
背景:金字塔池模块(PPM)是增强场景分析网络的有效方法。
缺陷:PPM严重依赖于标准的空间池化操作(尽管在不同的金字塔级别具有不同的池化内核),
目的:考虑到标准空间池化和条带池化的优点,本文改进了PPM并设计了一个混合池化模块(MPM),该模块致力于通过各种池化操作聚合不同类型的上下文信息,以使特征表示更具区分性。
概述:MPM由两个子模块组成,它们同时捕获不同位置之间的短距离和长距离依赖关系,这对于场景解析网络都是必不可少的。图3(b),在全局平均池化层中,通过同时使用水平和垂直条带池化操作来收集此类线索。条带池化使在整个场景中离散分布的区域之间的连接以及对具有带状结构的区域进行编码成为可能。但是,对于语义区域分布紧密的情况,捕获本地上下文信息也需要进行空间池化。考虑到这一点,如图3(a)所示,采用轻量级金字塔池化子模块,用于短程依赖项收集。它具有两个空间池化层,其后是用于多尺度特征提取的卷积层,以及一个用于保留原始空间信息的2D卷积层。每次合并后的特征图的大小分别为20×20和12×12。然后通过求和将所有三个子路径合并。
图 3
基于以上两个子模块,将它们嵌套在具有瓶颈结构的残差块中,以减少参数和模块化设计。
在每个子模块之前,首先使用1×1卷积层来减少通道。两个子模块的输出被串联在一起,然后馈入另一个1×1卷积层,以进行通道扩展。除了用于通道缩小和扩展的卷积层之外,所有卷积层的内核大小均为3×3或3(对于一维卷积层)。与空间金字塔池模块不同,MPM是一种模块化设计。
优点:可以轻松地以顺序方式使用它来扩展远程依赖项收集子模块的作用。在具有相同骨干网的情况下,仅具有两个MPM(原始PPM的大约1/3参数)的网络的性能甚至比PSPNet还要好。
2.4总体架构
基于SPM和MPM,本节介绍SPNet的总体体系结构。采用经典的残差网络作为骨干。使用膨胀策略改进了原始ResNet,最终特征图的大小设置为输入图像的1/8。在每个阶段的最后一个构建块的3×3卷积层和最后一个阶段的所有构建块之后,添加SPM。 SPM中的所有卷积层共享与输入张量相同数量的通道。
对于MPM,由于其模块化设计,直接将其构建在骨干上。由于骨干的输出具有2048个通道,因此首先将1×1卷积层连接到骨干以减少输出。将通道从2048设置为1024,然后添加两个MPM。
在每个MPM中,所有内核大小为3×3或3的卷积层都有256个通道(即使用1/4的缩减率)。在最后添加卷积层以预测分割图。
3实验
数据集 ADE20K , Cityscapes , Pascal Context
表1 展示了MPM优于PPM的优势,还展示了PSPNet的结果和参数编号
表 2
表 3 SPM的四种情况
表4 不同backbone的实验
表 5
消融实验
图4 MPM在不用设定上的可视化
图 5 MP模块不同部分选择特征图的可视化
图6 不同模型设定下的可视化
4结论
本文提出了一种新型的空间池化操作,条带池化。 它的池化窗口长而狭窄,因此模型可以收集丰富的全局上下文信息,这对于场景解析网络至关重要。基于条带池化和空间池化操作,设计了一种条带池化模块,以增加骨干的感受野,并提出了一种基于具有瓶颈结构的残差块的混合池化模块。
本文的贡献:1研究空间池化的常规设计并提出了条带池化的概念,该概念继承了全局平均池化的优点,可以收集长期依赖关系,同时关注局部细节。2设计了条带池化模块和混合池化模块。 这两个模块作为有效的附加模块插入到任何骨干网络中,以生成高质量的分段预测。3提出将上述两个基于池化的模块集成到单个体系结构中的SPNet,它在基准上实现了重大改进,并在广泛使用的场景解析基准数据集上建立了最新的技术成果。
AI算法后丹修炼炉是一个由各大高校以及一线公司的算法工程师组建的算法与论文阅读分享组织。我们不定期分享最新论文,资讯,算法解析,以及开源项目介绍等。欢迎大家关注,转发,点赞。同时也欢迎大家来平台投稿,投稿请添加下方小助手微信。
QQ交流群:216912253
查看更多交流方式
微信公众号:AI算法后丹修炼炉
小助手ID:jintianandmerry