【论文阅读】IRNet:具有像素间关系的实例分割的弱监督学习
文章目录
- 【论文阅读】IRNet:具有像素间关系的实例分割的弱监督学习
- 一、介绍
- 二、联系工作
- 三、方法
- 四、实验结果
Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations
本文提出了一种以图像级类标签为监督的学习实例分割的新方法
方法生成训练图像的伪实例分割标签,用于训练全监督模型
生成伪标签,我们首先从图像分类模型的注意力图中识别对象类的置信种子区域
并传播它们以发现具有精确边界的整个实例区域
提出了IRNet,它估计单个实例的粗略区域,并检测不同对象类之间的边界
实例标签分配给种子,并在边界内传播它们
从而可以准确地估计实例的整个区域
IRNet是用注意力图上的像素间关系进行训练的,因此不需要额外的监督
在PASCAL VOC 2012数据集进行对比实验
一、介绍
实例分割是一项联合估计单个对象的类标签和分割掩码的任务。
卷积神经网络(CNNs)的监督学习推动了实例分割的最新进展
方法需要大量带有基本事实标签的训练图像,而这些图像通常是手工给出的
学习能够处理现实世界中不同对象类的实例分割模型并不简单
弱标签的低注释成本
可以利用图像级类标签来学习实例分割,因为这样的标签在大规模图像分类数据集中很容易获得
CAM通过调查局部图像区域对类分类分数的贡献来粗略估计每个类的面积
cam不能直接用作实例分割的监督,因为它们的分辨率有限,通常只突出对象的部分区域
提出了一种使用图像级类标签学习实例分割的新方法
甚至优于一些依赖于更强监督的方法
我们的方法对给定图像级标签的训练图像生成伪实例分割标签,并用伪标签训练已知的CNN模型
为了克服cam的这些局限性,我们引入了像素间关系网络(IRNet),该网络用于估计与cam互补的两种类型的附加信息
- 类别无关的实例映射
- 配对语义亲和力
IRNet有两个分支,分别估计实例映射和语义关联。
- 第一个分支预测一个位移向量场,其中每个像素处的2D向量表示像素所属实例的质心。
- 第二个分支检测不同对象类之间的边界。然后从检测到的边界以这样的方式计算成对语义亲和力,即被强边界分隔的两个像素被认为是具有低语义亲和力的一对
我们发现IRNet可以有效地训练来自cam的像素间关系
- 通过分类无关的实例映射来识别和定位具有图像级监督的实例
- 通过类边界检测在图像级监督下学习和预测像素之间的语义亲和力
二、联系工作
回顾方法密切相关的语义和实例分割模型
为这两个任务引入了弱监督方法
Image-level类标签被广泛用作弱标签
大多数使用图像级监督的方法都是基于CAMs
- Is object localization for free? - weakly-supervised learning with con-volutional neural networks.
- Grad-cam: Visual explanations from deep networks via gradient-based localization
- Learning deep features for discriminative localization.
利用额外的数据或监督来获得额外的证据
在实例分割中,边界框被广泛用作弱标签
使用框标签的弱监督模型主要集中在估计对象形状上
- GraphCut与通用边界检测[51]相结合,通过考虑边界来更好地估计物体形状
- 一种方法通过检测类关注的峰值来识别单个实例,并将它们与高质量的分割结合起来
- 分割建议必须使用额外的数据进行训练,并进行高级监督
像素间的语义关联
像素间的两两语义关联被用来提高语义分割的质量
- 用于语义分割的cnn与计算像素语义关联矩阵的可微模块相结合,并在完全监督下以端到端方式进行训练
- 预测的亲和矩阵被用作随机游走的转移概率矩阵,而在[6]中,它被嵌入到卷积解码器[36]中
- 提出了一种弱监督模型来学习图像级类标签的两两语义亲和力
IRNet可以通过检测类边界更有效地学习和预测亲和力
Class Attention Maps
cam在我们的框架中起着两个重要的作用。首先,它们用于定义实例的种子区域,稍后传播这些种子区域以恢复整个实例区域
为了生成用于训练图像的cam,我们采用[52]的方法,使用具有全局平均池化的图像分类CNN,然后是分类层
- f为CNN最后一层卷积的特征映射
- φc为c类的分类权值
三、方法
IRNet旨在提供两种类型的信息:位移向量场和类边界图,这两种信息依次用于从cam中估计伪实例掩码。
IRNet有两个输出分支,分别预测位移向量场和类边界图。
两个分支共用同一个ResNet50骨干网,与第三节中的分类网相同
两个分支都从主干的所有五个层次获取特征映射
两个分支的所有卷积层之后都是组归一化[50]和ReLU
位移场预测分支:
- 对每个输入特征映射应用1×1卷积层,如果通道数大于256,则将通道数减少到256
- 附加了自顶向下的路径方式来迭代合并所有的特征图
- 与相同分辨率的特征图连接,并通过1×1卷积层进行处理
- 三个1×1卷积层解码位移场,其输出有两个通道
边界检测分支:
- 对每个输入特征映射应用1×1卷积进行降维
- 结果调整大小、连接并输入到最后一个1×1卷积层,该层根据连接的特征生成类边界图。
基于cam的像素间关系挖掘
像素间关系是训练IRNet的唯一监督,因此可靠地收集像素间关系非常重要
它们的坐标之间的位移和它们的类等价
利用cam来预测逐像素的伪类标签,并从中获得可靠的类等价关
从改进的置信区域中抽取相邻像素对,并根据它们的类等价性将它们分为P+和P−两个集合
位移场预测的损失
第一个分支预测一个位移向量场D∈Rw×h×2
每个2D向量指向相关实例的质心
首先,对于属于同一实例的一对像素位置xi和xj,它们的估计质心必须相同
为了满足第一个条件,我们首先假设一对相邻的像素(i, j)∈P+
- 坐标位移δ(i, j) = xj- xi
- D中的差值表示为δ(i, j) = D(xi) - D(xj)
- 最小化L1损耗
因此我们从背景像素中消除了琐碎的质心估计。为此,我们将背景像素的以下损失最小化
类边界检测的损失
IRNet的第二个分支检测不同类之间的边界,输出记为B∈[0,1]w×h
虽然在我们的设置中没有给出类边界的基础真值标签
两个像素之间的类等价被表示为一个二进制标签,如果它们的伪类标签相同,则其值为1,否则为0
两两语义关联,类边界图和随机游走后从中心开始的标签传播
检测实例质心,初始位移场和检测到的质心
IRNet的两个分支通过最小化我们之前定义的所有损失同时进行联合训练:
四、实验结果
框架的有效性在PASCAL VOC 2012数据集上得到了证明
框架为训练图像生成伪标签
伪标签的准确性大大高于AffinityNet,这要归功于IRNet预测的成对语义亲和力的优良质量。