第一次细看显著性检测的论文,如有不对的地方,请指正!
现有的显著性目标检测模型大多是通过对卷积神经网络中提取的多级特征进行聚合而实现的。然而,由于不同卷积层的接受域不同,这些层生成的特征存在较大差异。常见的特征融合策略(加法或拼接)忽略了这些差异,可能导致次优解。在本文中,我们提出了F3Net来解决上述问题,它主要由交叉特征模块(CFM)和通过最小化新像素位置感知损失(PPA)训练的级联反馈解码器(CFD)组成。具体来说,CFM的目标是有选择地聚合多级特性。与加法、拼接不同,CFM自适应地在融合前从输入特征中选择互补成分,有效地避免了引入过多的冗余信息而破坏原有特征。CFD采用多级反馈机制,对前一层的输出引入不受监督的特征,对其进行补充,消除特征之间的差异。在生成最终的显著性映射之前,这些细化的特性将经过多次类似的迭代。此外,与二进制交叉熵不同的是,PPA损失对像素的处理并不平均,它可以综合像素的局部结构信息,从而引导网络更加关注局部细节。来自边界或易出错部分的硬像素将得到更多的关注,以强调其重要性。F3Net能够准确地分割出突出的目标区域,并提供清晰的局部细节。对5个基准数据集的综合实验表明,F3Net在6个评估指标上的性能优于最先进的方法。
1.引言:
当前SOD方法主要还存在两个缺陷:
1).不同层次的特征具有不同的分布特征。高层特征特征丰富,但缺乏准确的位置信息。低层特征有丰富的细节,但充满了背景噪音。为了生成更好的显著性地图,多层特征被结合起来。然而,如果不能对模型中的信息流进行精细的控制,一些冗余的特征,包括来自低层的噪声和来自高层的粗糙边界将会传入,并可能导致性能下降。
2).其次,现有的大多数模型都使用二进制交叉熵,它对所有像素一视同仁。从直观上看,不同的像素应该有不同的权值,例如,边界上的像素更有辨别力,应该给予更多的重视。但是,仅仅考虑边界点不够,靠近边界的像素也需要大的权重。因此,有必要设计一种机制来减少不同层次特征之间不一致的影响,并为那些真正重要的像素分配更大的权重。
因此本文提出的F3Net方法主要的创新点有:
1).首先,为了减小特征之间的差异,我们设计了交叉特征模块(CFM),它通过元素间的乘法来融合不同层次的特征。与加法、拼接不同,CFM采用选择性融合策略,抑制冗余信息,避免特征间的污染,重要特征之间相互补充。与传统的融合方法相比,CFM能够去除背景噪声,锐化边界,如上图所示。
2).由于向下采样,高阶特征可能会出现信息丢失和失真,这是CFM无法解决的。因此,我们开发了级联反馈解码器(CFD)来迭代地细化这些特征。CFD包含多个子解码器,每个子解码器都包含自底向上和自顶向下的过程。对于自底向上的过程,多层特征由CFM逐步聚合。对于自顶向下流程,聚合的功能部件将反馈到以前的功能部件中以改进它们。
3).我们提出了像素位置感知损失(PPA)来改善常用的二进制交叉熵损失,该损失对所有像素一视同仁。事实上,位于边界或拉长区域的像素更难于识别。对这些硬像素的关注可以进一步增强模型的泛化能力。PPA loss将不同的权值分配给不同的像素,扩展了二进制交叉熵。每个像素的权重由其周围的像素决定。难分像素会得到更大的权重,而容易的像素会得到更小的权重。
2.F3Net:
网络结构如上图所示,Encoder网络为ResNet50,Decoder网络CFD,级联的decoder结构,中间包括了CFM对多层特征的融合。MLS为多层监督损失。下面具体介绍每个部分:
1)CFM(Cross Feature Module)
如上图所示,具体操作为,对低层高层特征先做两个卷积操作,然后两个做个乘法,再分别与原特征图相加,与现有研究中直接添加或拼接相比,CFM避免了引入fl和fh的冗余信息,这些信息可能会“污染”原有的特征,对显著性图的生成产生不利影响。
2)CFD(Cascaded Feedback Decoder)
对于SOD,传统的方法旨在直接聚合多层次的特征,以产生最终的显著性地图。事实上,不同层次的特征可能会因为下采样和噪声而丢失或冗余部分。即使使用CFM,这些部分仍然难以识别和恢复,这可能会影响最终的性能。考虑到输出的显著性映射相对完整且近似于ground truth,我们提出将最后一个卷积层的特征传播回前一层的特征进行校正和细化。
如上图所示,每个解码器由两个进程组成,即自下而上和自上而下。对于自底向上的流程,通过CFM将特征从高层逐步聚集到低层。聚集的特征将被监督并产生一个粗糙的显著性地图。对于自顶向下的流程,由上一个流程聚合的特性将直接向下采样并添加到CFM导出的以前的多级特性中以对其进行细化。这些改进的功能将被发送到下一个解码器进行相同的处理。下面为算法流程图:
3)Pixel Position Aware Loss
直接看损失函数:
在传统BCE损失函数对每个像素点赋了一个a的权重,这个权重的定义如下:
A代表了像素点(i,j)领域的区域。a代表了该点与周围点的区别,如果差别比较大,那么这个点是个重要的像素,应该获得更多的注意,即赋值会比较大。
1.同SOTA方法比较:
2.消融实验分析: