本部分占所有跨模态ReID的绝大部分论文的思路,基本思路是通过two-stream网络分别提取两个模态图像的特征,CNN前几层提取specifc feature ,后几层通过权重共享提取common feature ,在通过度量学习或者进一步的特征提取分别对specific feature和common feature进行进一步处理,最后通过ranking loss缩小同类别的距离,扩大不同类别的距离,通过identity loss进行分类任务。
1.HSME Hypersphere Manifold Embedding for Visible Thermal Person Re-Identification(2019 AAAI)
算法:
概括:
本文最大的特点是应用了经典softmax loss的一个变种Sphere Softmax loss,该softmax是从人脸领域中的coco loss迁移过来的,即首先将二维坐标系通过坐标变换转变为球面坐标,并且使得在球面上做分类任务时,仅与向量间的角度有关,与向量的模无关。整体框架中首先将RGB图像和IR图像通过two-stream通道输入给backbone分别提取特征,然后通过Sphere Softmax loss和triplet loss进行学习。
指标:
SYSM: RANK1:20.6、mAP:23.1
2.Hierarchical Discriminative Learning for Visible Thermal Person Re-Identification(2018 AAAI)
算法:
概括:
本文通过two-stream结构分别提取RGB图像和IR图像的特征,在训练时,选用Contrastive Loss弥补跨模态之间的差距,同时增强特征学习的模态不变性,用softmax loss和Cross entropy loss作为Identity loss 加强ID的识别能力,将训练好的feature map再作为输入进行度量学习(HCML),进一步将两个不同空间的模态的数据转化到同一个空间,一方面在每种模态内分别约束同一人的特征向量,另一方面区分不同人的两种不同模态转换后与模态特异性的度量,从而进一步加强对同一ID模态内和模态间特征的学习。
指标:
未用SYSM
RegDB:rank1:24.44、mAP:20.8
3.Enhancing the Discriminative Feature Learning for Visible-Thermal Cross-Modality Person(2019 ArXiv)
算法:
概括:
本文采用了two-stream结构分别提取RGB图像和IR图像的特征,在提取特征的过程中,采用跳链接将CNN模型的中间层特征融合进来,以增强person特征的无描述性和鲁棒性,并通过Triplet loss和softmax loss进行训练。
Fuse操作一般有级联、加、乘、相关操作等,其中前两种最为常见,级联实质是组合互补特征,不算融合,加是抽取互补特征,是一种直接融合的方式,两者比较的话有3点:1相加是级联的特例,2级联参数量多,3两个效果没有准确的优劣,但结果相差不大。
指标:
SYSM:rank1:36.94、mAP:40.77
4.HPILN a feature learning framework for cross-modality person re-identification(2019 IET)
算法:
概括:
本文首先是通过特征提取器提取相同数量的RGB图像和IR图像的特征,然后输入给特征嵌入模块,将这2PK个图像进行分组,得到the hardest pentaplet pair集合,本文最大的亮点就是将原始的triplet loss改变为pentaplet loss,即原始的triplet loss是尽可能将anchor与positive距离小于anchor与negative距离,但是本文提出的pentaplet loss除此之外还加入了的cross module问题,也就是说既要使得将anchor与positive距离小于anchor与negative距离,同样要使得将anchor与cross-module positive距离小于anchor与cross-module negative距离,除了将pentaplet loss作为ranking loss进行特征训练外,也选用了softmax作为identity loss辅助训练。
同时本文提到的难样本挖掘方法,即相似样本的最大距离<不相似的最小距离,难样本的意思是loss最大的样本,不容易识别,所以在跨模态ReID中,难样本指的是不同ID的同一模态或不同模态,取最小(min)即选择最相似的不同ID的样本进行训练。
指标:
SYSM:rank1:41.36、mAP:42.95
5.Person Re-Identification Between Visible and Thermal Camera Images Based on Deep Residual CNN Using Single Input(2019 IEEE Access)
算法:
概括:
本文从简化跨模态ReID任务的框架为出发点,通过预处理后将图片进行分类,对positive和negative分别组成pairs然后分别提取同一ID的specific feature和不同ID的common feature进行特征提取, 本文并没有同其他文章通过修改loss或者网络结构作为idea,框架也很简单,而是详细讲了对这类任务的数据集preprocessing进行了筛选与详细的解释。
指标:
没有SYSM指标
6.Hetero-Center Loss for Cross-Modality Person Re-Identification(2019 ArXiv)
算法:
概括:
本文最大的特点是提出了HC loss,以往的所有论文都是注重对网络的改进,在identity loss的选取中,一般选取Cross entropy loss及其变体或softmax loss及其变体,而本文最大的特点是提出了HC loss,而且以往的论文注重的是对类间跨模态问题的探究,本文则是通过实验证明了交叉熵函数已经很好的将不同类别进行分类,但是类类的不同模态的center并没有很好的聚合,本文基于这一点,加入了Hetero-Center 的概念,第一次将同一类别同一模态的特征中心概念引入到该方向上,并且在SYSU数据集的mAP增加了15个点左右。
有以下3点感想:
1.图1图2采用的T-SNE可视化方法,可以直观的看到不同模态的不同类别的anchor的差异。选自:
2.PBC方法,即将主干输出分割为P个分支,可以看到mAP提高了16%
3.与Visible thermal person re-identification via dual-constrained top-ranking中的center loss作比较:
Center loss:
可以看到,center loss注重的是每一个anchor与该类别的中心做差,注重的是对同一类别的约束,但本文的HC loss注重的是同一类别的不同模态的中心差异,即两个模态的集合的中心做差。所以,从上图可以看到,两个loss 的最大差异是同一类别两个模态的距离,也不难解释了。
指标:
SYSM:rank1:56.96、mAP:54.95
7.Attend to the Difference Cross-Modality Person Re-identification via Contrastive Correlation(2020 AAAI)
算法:
概括:
本文的motivation旨在比较两个相似物体时通常会注意到它们之间的差异这一问题,首先通过two-stream结构分别提取两个模态的特征,将交叉模态图像嵌入到一个普通的三维张量空间中,与此同时生成图像的个性化的内核(生成特定于I或R的内核),旨在强调人相对于一般人的明显特征,然后计算出两个个性化内核之间的差异。后半部分通过2016NIPS“Dynamic filter networks”中提出的一种基于输入帧的动态滤波网络,通过相关操作和sigmoid函数提取两个模态间的差异,后利用二元交叉损失和softmax loss进行学习。
本文3个最大的特点:
1,将GAP与全连接层改为卷积层,用来保持空间特征
2,算法1中,采样操作并不是卷积操作,没有参数运算,只是将3×3的窗口在FR滑动剪裁,但不做任何运算
3,相关操作就是卷积操作,将每个个性化内核和两个模态内核的差做相关操作,得到的值越大,相关性越高,模态差异越大。
这篇文章的思路是借鉴人脸识别的Face Recognition with Contrastive Convolution一文,要想读懂本文首先要看人脸这一篇,在这我也总结一下人脸这一篇:首先,框架如下:
在本文中,核生成分两个部分,第一个是,得到不同的feature map后,在经过不同的内核生成器,生成不同感受野的内核KiNA,比如K1j,K2j,第二个是,将第i层的特征映射记为Si,裁剪Si取patch pij,比如第一个尺寸feature map的第2的patch,就是p12,然后通过第i个内核生成器,生成KNjA,比如通过第一个内核生成器,生成的内核就是K11,K12等,然后就公式7就是所有内核的集合,相反attend这篇文章我觉得是个阉割版本,只对最后输出的FR进行剪裁,提取个性化内核,我理解的核是经过剪裁再采样后的patch,首先剪裁就是对FR的每个区域进行剪裁为patch,文中有这句话,Kij R为从FR裁剪出的局部patch,然后经过采样,采样呢就是对该patch及其周围8个patch进行一个相关的采样操作,也可以理解为是一种映射,最后得到的KR表示从FR中采样的一组内核。
指标:
SYSM:rank1:35.1、mAP:37.4
8.Visible thermal person re-identification via dual-constrained top-ranking(2018 IJCAI)
算法:
概括:
本文结构简明,使用了最为常见的two-stream先分别提取两个模态的specific feature,随后通过权重共享,提取两个模态的common feature,本文最大的亮点就是改进了triplet loss,提出模态内和模态间的top-ranking loss,即使得不同模态的不同ID距离增大,同时使得同一模态的不同ID增大,保证了模态间和模态内都可以符合我们预期的要求,但是本文图1的框架有误,在两个identity loss 前都应加上FC3,FC3的通道数为ID类别数,以保证正确的identity classification。
指标:
SYSM:rank1:17.01、mAP:19.66
9.Bi-Directional Center-Constrained Top-Ranking for Visible Thermal Person Re-Identification(2020 TIFS)
算法:
概括:
本文是对Visible thermal person re-identification via dual-constrained top-ranking的会议转期刊的改进版本,改进部分是ranking loss,本文加入了对不同ID的center,分别让同一ID的RGB和IR feature map与该类别(即同一ID)中心的向量的距离小于不同类别(即不同ID)的中心向量的距离,既保证了模态间也保证了模态内的距离问题,但本文在框架图中同样缺少了identity loss前的FC3层。
指标:
SYSM:rank1:27.82 、mAP:28.42
10.Learning Modality-Specific Representations for Visible-Infrared Person Re-Identification(2019 TIP)
算法:
概括:
本文最大的创新点是通过两个欧氏距离的映射的loss来代替传统的triplet loss,第一个是两个分支的specific feature进行度量学习,增强识别能力,最小化雷内变化和最大化类间变化,提高模式的膜内鉴别能力。第二个是shared feature引入跨模态约束,通过最小化模态的同一ID特征的距离来缩小模态差异。
指标:
SYSM:rank1:37.35、mAP:38.11
11.SDL Spectrum-Disentangled Representation Learning for Visible-Infrared Person Re-identification(2019 TCSVT)
算法:
概括:
本文的motivation说明了现有的方法并没有明确地忽略与ReID无关的频谱信息,所以在本文中,最大的创新点就是将得到的feature map分为了谱相关和谱无关信息,谱相关信息是学习与频相关的信息并删除与身份相关的信息,通过l设计的loss,目的使得分类器对所有的feature 分类的概率相等,都为总个数的倒数,以此欺骗分类器。谱无关分支学习能够有效执行RGB-IR ReID的识别鉴别和频谱分离特征(u),也就是分类任务,本部分采用交叉熵loss,在通过一个disentanglement loss,使得谱无关信息加谱相关信息等于最初输出的feature map已达到本文的目的。
指标:
SYSM:rank1:32.56、mAP:39.56