Horizontal Flipping Assisted Disentangled Feature Learning for Semi-Supervised Person Re-Id

时间:2024-04-10 20:26:58

Horizontal Flipping Assisted Disentangled Feature Learning for Semi-Supervised Person Re-Id(半监督行人重识别中用水平翻转来协助特征解耦)

  我的科研方向是行人属性识别,老师让我参照师兄刚中的ACCV Paper中的方法看看能否将其应用到行人属性识别中,现在先将师兄论文的阅读笔记记录下来。

一、摘要

  文章提出了一个使用少量带标签的数据和大量无标签的数据来训练一个编码解码结构模型的半监督行人重识别方法。该模型有两个分支,模型和参数是共享的。在编码模块,文章将原始行人和水平镜面翻转后的行人图像作为一对输入,编码深度特征,与此同时,id信息和结构信息被正确的解耦。然后,在解码模块,解耦的id信息和结构信息被用来重构行人图像。除了通用的id一致性损失和图像重构一致性损失,作者还设计了一个损失来约束解耦变化的一致性信息。该方法是不需要标签的,因此可以用于有监督或者无监督学习。

二、提出的方法

2.1 总体框架

Horizontal Flipping Assisted Disentangled Feature Learning for Semi-Supervised Person Re-Id
  文章的总体框架如图1所示。文章的半监督学习框架包含有两个分支:监督学习分支和半监督学习分支。对于每一个分支,作者设计了一个编码解码网络来实现特征解耦和特征重构。作者将原始图像、水平翻转后的图像和图像的标签y作为有监督学习分支的输入;而在无监督分支,则去掉了图像的标签y。网络的最终损失是有监督分支损失和无监督分支损失的加权组合。有监督分支和无监督分支点的损失组成在下面部分介绍。由于整个网络共享模型和参数,在有监督学习分支的强引导下,无监督学习分支可以有效的利用大量的无标签特征。

2.2 解耦特征学习

  在不同的结构信息和不同视角下挖掘行人的ID信息是非常重要的。文章希望引导网络通过学习将混合的全局特征解耦为独立的结构感知特征和id感知特征。对于之前的无标签学习来说,由于数据是没有标签的,所以无法构建以标签来引导的二输入孪生网络。受到水平翻转和垂直翻转等数据增广技术的启发,文章采用水平增广技术来获得行人的水平镜像结构样本。
  因此文章设计了一个基于编码解码特征解耦的网络,该网络要求有一对输入。网络结构图2所示:
Horizontal Flipping Assisted Disentangled Feature Learning for Semi-Supervised Person Re-Id
  文中采用在ImageNet上预训练的DenseNet-121作为自动编码解码器的backbone,其中网络的最后的池化层和全连接层被去掉。选择DenseNet-121是因为其网络架构比起ResNet-50更加轻量级。将图片输入Io作为例子,两个自送编码器(Eid和Esrtuct)有相同的结构但是参数不同,它们被分别应用来编码身份感知特征 f i d O f_{id}^{O} fidO和结构感知特征 f s t r u c t O f_{struct}^O fstructO。文章定义了一个水平翻转变换 T ( ⋅ ) T(\cdot ) T(),这个变换用来生成水平翻转图像 I T I_{T} IT= T ( I O ) T(I_{O}) T(IO),通过类举, f i d T f_{id}^{T} fidT f s t r u c t T f_{struct}^T fstructT也可以从水平翻转图像 I T I_{T} IT中编码得到。商标O和T分别标明了原始图像和水平翻转后的图像。随后,我们将带有不同语义特征的解耦特征拼接起来,最终生成四种不同的组合,其后有一个解码网络重构图像。解码网络由五个转职卷基层和批量归一化层,leaky ReLU层和dropout层。
  为了保证解耦特征编码了语义信息,重构的图像必须满足两个要求。1)自重构特征。如果身份感知特征和结构感知特征都来自同一张图像,那么重构肯定和自身输入是一样的。2)交换重构。如果身份感知特征和结构感知特征来自不同的图像(如 f i d T f_{id}^{T} fidT f s t r u c t O f_{struct}^O fstructO),重构和解耦股感知特征来源的图像所一致,也就是Io。
  因此,通过上面的要求,文章定义了最终的重构损失Lrec由两部分组成:

Horizontal Flipping Assisted Disentangled Feature Learning for Semi-Supervised Person Re-Id
  第一项损失 L r e c s e l f L_{rec}^{self} Lrecself遵从第一个要求:
Horizontal Flipping Assisted Disentangled Feature Learning for Semi-Supervised Person Re-Id
   T ( ⋅ , ⋅ ) T(\cdot,\cdot ) T(,)表示将两个分解后的特征拼接后得到的重建图像, ∣ ∣ ⋅ ∣ ∣ ||\cdot || 是像素级L2缺失。;第一项损失 L r e c s w a p L_{rec}^{swap} Lrecswap遵从第二个要求。解耦的id感知特征和结构感知特征应该是相互独立的。很显然,id特征不会随着图像的水平变化而改变,所以重构的图像是由结构感知特征所决定的。因此,第二项重构损失可以定义为:
Horizontal Flipping Assisted Disentangled Feature Learning for Semi-Supervised Person Re-Id

2.3 转换一致性约束

  传统的有监督Re-ID框架是在id的标签的指导下编码全局性人特征来训练的。而作者采用将混合语义特征解耦为带有不同性质的独立特征的特征解耦框架。 传统的有监督Re-ID试下标签的引导下编码全局杏仁特征。文章与以前方法不同,作者采用了解耦特征学习将混合的语义特征解码为带着不同特性的独立的特征。对于输入的原始图像和水平翻转后的图像,其id感知特征是不变的,而结构感知特征应该保持结构同变性(也就是说 f s t r u c t T f_{struct}^{T} fstructT f s t r u c t O f_{struct}^O fstructO应该是对称的)图三描述了id不变性和结构同变性。
Horizontal Flipping Assisted Disentangled Feature Learning for Semi-Supervised Person Re-Id

  因此,作者设计了id不变性损失和结构同变性损失,损失函数如下:
Horizontal Flipping Assisted Disentangled Feature Learning for Semi-Supervised Person Re-Id
  其中D K L _{KL} KL( ⋅ \cdot )计算的是KL散度距离,||用来分开两个特征。
  在这两个一致性限制下的总体损失为:

Horizontal Flipping Assisted Disentangled Feature Learning for Semi-Supervised Person Re-Id
  这两个约束条件反映了解纠缠特征之间的内在关联,保证了解耦特征学习的顺利进行。该损失函数是无标签的,既适用于监督学习,也适用于无监督学习。

3.4 半监督学习

  文章引入了一种半监督的方法,利用较少的标记数据,充分利用未标记数据来训练reid模型。模型由一个监督分支和一个非监督分支组成,其中两个分支共享相同的参数。
  对于无监督分支,被解耦的特征得到一致的变换约束的损失Lct;然后将不同的特征组合拼接到解码器来利用重建损失Lrec重建图像。在这种情况下,无监督训练损失L U _U U定义为:
Horizontal Flipping Assisted Disentangled Feature Learning for Semi-Supervised Person Re-Id
  其中用两个参数来调整两个损失的重要性。
  对于有监督的分支,除了上面提到的无监督损失外,我们利用身份标签作为强监督信号来指导我们的模型更有效地分离id感知特征和结构感知特征。作者使用了交叉熵损失函数Lid。如图1和图2所示,虚线表示的Lid仅对有监督学习分支有效。在这种情况下,监督训练损失LS定义为:
Horizontal Flipping Assisted Disentangled Feature Learning for Semi-Supervised Person Re-Id
  用训练损失Ltotal对整个网络进行优化。在监督学习分支的指导下对无监督分支进行训练,使特征分离更加成功和有效。
Horizontal Flipping Assisted Disentangled Feature Learning for Semi-Supervised Person Re-Id