一. Introduction 1.首先介绍了行人再识别的应用领域以及这个研究方向存在的难点,比如人物的姿态,摄像机的角度,光照,像素,背景,etc 2.尽管人们提出了许多行人再识别的数据集和方法,但是和现实应用的场景还是有很大的gap在,原因在于许多方法用到的是人工裁剪过的图像,而在现实中首先必须先从行人所在的某个场景中识别出行人。目前许多paper里的方法已经假定了行人是被完美识别出来的。如下图:
二. Related Work 介绍re-id和行人检测方法的发展历程..... 各种论文和方法的罗列
三. Method 文中方法的流程如下:
![论文笔记之---Joint Detection and Identification Feature Learning for Person Search 论文笔记之---Joint Detection and Identification Feature Learning for Person Search](https://image.shishitao.com:8440/aHR0cHM6Ly93d3cuaXRkYWFuLmNvbS9nby9hSFIwY0RvdkwybHRaeTVpYkc5bkxtTnpaRzR1Ym1WMEx6SXdNVGN3TXpBME1UWTBPVEUzTVRJdw%3D%3D.jpg?w=700&webp=1)
简单介绍一下: a)利用一个stem CNN将原始图片像素转换成feature maps,pedestrian proposal net就建立在这些feature maps之上,从而预测候选行人的bounding boxes。 b)将上述的bounding boxes送入具有RoI-Pooling的identification net来提取经过L2正则化后的每个box特征(256维)。 c)在推测阶段,利用gallery person和目标行人之间的features distances来进行排序。 d)在训练阶段,根据feature vectors,使用OIM loss function以及其他的loss functions来监控identification net,以多任务方式来训练网络。
Model Structure 1.文中选用的是ResNet-50作为CNN模型的网络结构,利用其中的conv1和 conv4_3作为stem CNN部分。给定一张输入图片,stem会产生1024个通道的 features maps,它们的分辨率只有原图像的十六分之一。 2.根据features maps,利用512 × 3 × 3的卷积层来对行人特征进行转换,接着在feature map的每个位置利用9个anchors(源于Faster RCNN)和Softmax分类器进行行人与否的预测,同时还包括了线性回归来调整anchors的位置。在NMS过后保留128个调整后的bounding boxes作为最终的proposals 3.为了在这些proposals里找到目标行人,我们建立了identification net来提取特征,并与目标行人作对比。首先利用RoI Pooling层从stem feature map中得到1024 × 14 × 14的区域(对应于每个proposal),接着将它们送入ResNet-50的conv4_4至conv5_3层,再利用global average pooling层将其整合为2048维的特征向量。 4.一方面来说, pedestrian proposals不可避免的会包含一些false alarms(也就是proposal里包含的不是行人)和misalignments,利用Softmax分类器和线性回归来拒绝非行人区域并完善proposal的位置。另一方面,我们将特征投影到经过L2正则化后的256维向量子空间中,计算它们和目标行人的余弦相似度。
Online Instance Matching Loss 1.首先要区分几个概念: labeled identity:与目标行人相吻合的proposal。 unlabeled identities:包含行人但不是目标行人的proposal。 background clutter:包含非行人物体或者背景的proposal。 在OIM损失函数中只考虑前两者。具体见下图:
![论文笔记之---Joint Detection and Identification Feature Learning for Person Search 论文笔记之---Joint Detection and Identification Feature Learning for Person Search](https://image.shishitao.com:8440/aHR0cHM6Ly93d3cuaXRkYWFuLmNvbS9nby9hSFIwY0RvdkwybHRaeTVpYkc5bkxtTnpaRzR1Ym1WMEx6SXdNVGN3TXpBME1UWTBPVFU1TWpreg%3D%3D.jpg?w=700&webp=1)
2.文中并未选择SGD进行优化,而选择了online approximation。mini-batch中一个labeled identity的特征被记为记为x(x是D维特征向量),保留一个LUT记录所有labeled identity的特征(D×L 维矩阵,L是不同目标行人的个数)。在前向传播中,计算mini-batch中样本与所有labeled identities之间的的余弦相似度(V转置后乘上x)。在后向传播过程中,如果目标行人的分类标签是t,那么就可以利用如下公式来更新LUT中的第t列:
![论文笔记之---Joint Detection and Identification Feature Learning for Person Search 论文笔记之---Joint Detection and Identification Feature Learning for Person Search](https://image.shishitao.com:8440/aHR0cHM6Ly93d3cuaXRkYWFuLmNvbS9nby9hSFIwY0RvdkwybHRaeTVpYkc5bkxtTnpaRzR1Ym1WMEx6SXdNVGN3TXpBME1UWTFNREl6TmpJeQ%3D%3D.jpg?w=700&webp=1)
![论文笔记之---Joint Detection and Identification Feature Learning for Person Search 论文笔记之---Joint Detection and Identification Feature Learning for Person Search](https://image.shishitao.com:8440/aHR0cHM6Ly93d3cuaXRkYWFuLmNvbS9nby9hSFIwY0RvdkwybHRaeTVpYkc5bkxtTnpaRzR1Ym1WMEx6SXdNVGN3TXpBME1UWTFNVEEwTWpBdw%3D%3D.jpg?w=700&webp=1)
![论文笔记之---Joint Detection and Identification Feature Learning for Person Search 论文笔记之---Joint Detection and Identification Feature Learning for Person Search](https://image.shishitao.com:8440/aHR0cHM6Ly93d3cuaXRkYWFuLmNvbS9nby9hSFIwY0RvdkwybHRaeTVpYkc5bkxtTnpaRzR1Ym1WMEx6SXdNVGN3TXpBME1UWTFNakF5TWpBeQ%3D%3D.jpg?w=700&webp=1)
![论文笔记之---Joint Detection and Identification Feature Learning for Person Search 论文笔记之---Joint Detection and Identification Feature Learning for Person Search](https://image.shishitao.com:8440/aHR0cHM6Ly93d3cuaXRkYWFuLmNvbS9nby9hSFIwY0RvdkwybHRaeTVpYkc5bkxtTnpaRzR1Ym1WMEx6SXdNVGN3TXpBME1UWTFNalEwTkRnMA%3D%3D.jpg?w=700&webp=1)
![论文笔记之---Joint Detection and Identification Feature Learning for Person Search 论文笔记之---Joint Detection and Identification Feature Learning for Person Search](https://image.shishitao.com:8440/aHR0cHM6Ly93d3cuaXRkYWFuLmNvbS9nby9hSFIwY0RvdkwybHRaeTVpYkc5bkxtTnpaRzR1Ym1WMEx6SXdNVGN3TXpBME1UWTFNekl5TXpJNQ%3D%3D.jpg?w=700&webp=1)
四. Dataset1.文中使用了两类数据集,一类是在城市里用照相机拍下来的照片,另一类是电影中包含有行人的截图。目的是为了增加场景的多样性。不同像素的labeled和unlabeled identities分布如下:
![论文笔记之---Joint Detection and Identification Feature Learning for Person Search 论文笔记之---Joint Detection and Identification Feature Learning for Person Search](https://image.shishitao.com:8440/aHR0cHM6Ly93d3cuaXRkYWFuLmNvbS9nby9hSFIwY0RvdkwybHRaeTVpYkc5bkxtTnpaRzR1Ym1WMEx6SXdNVGN3TXpBME1UWTFNelV6TXpFeA%3D%3D.jpg?w=700&webp=1)
2.数据集被分为训练和测试集,其中测试集中的行人又被分为queries和galleries,总共大约有2900个test identities,并随机抽取其中之一做为query,而对应的gallery数据集由两部分组成:所有包含其他实例的图片和随机抽取的不包含query的图片。3.评价机制:选用的是CMC top-K和mAP。CMC说明产生了匹配,需要满足:top-K个预测bounding boxes中至少有一个box与ground truths有重合,且IoU要大于等于0.5。mAP则是沿用了ILSVRC目标检测标准。
五. 实验1.文中将三种行人检测和五种行人再识别方法进行组合(形成15个组合)。行人检测包括CCF,ACF和Faster RCNN。recall-precision curve的结果如下:
![论文笔记之---Joint Detection and Identification Feature Learning for Person Search 论文笔记之---Joint Detection and Identification Feature Learning for Person Search](https://image.shishitao.com:8440/aHR0cHM6Ly93d3cuaXRkYWFuLmNvbS9nby9hSFIwY0RvdkwybHRaeTVpYkc5bkxtTnpaRzR1Ym1WMEx6SXdNVGN3TXpBME1UWTFOREl4TVRVNA%3D%3D.jpg?w=700&webp=1)
CMC top-K和mAP的结果如下:
![论文笔记之---Joint Detection and Identification Feature Learning for Person Search 论文笔记之---Joint Detection and Identification Feature Learning for Person Search](https://image.shishitao.com:8440/aHR0cHM6Ly93d3cuaXRkYWFuLmNvbS9nby9hSFIwY0RvdkwybHRaeTVpYkc5bkxtTnpaRzR1Ym1WMEx6SXdNVGN3TXpBME1UWTFORFV6TmpFeQ%3D%3D.jpg?w=700&webp=1)
2.对于行人重识别部分,使用了DSIFT,BoW和LOMO,并且将它们与Euclidean, Cosine similarity,KISSME和XQDA进行结合。3.OIM与Softmax的对比:
![论文笔记之---Joint Detection and Identification Feature Learning for Person Search 论文笔记之---Joint Detection and Identification Feature Learning for Person Search](https://image.shishitao.com:8440/aHR0cHM6Ly93d3cuaXRkYWFuLmNvbS9nby9hSFIwY0RvdkwybHRaeTVpYkc5bkxtTnpaRzR1Ym1WMEx6SXdNVGN3TXpBME1UWTFOVEUzTnpFMw%3D%3D.jpg?w=700&webp=1)
4.使用二次采样后的mAP曲线如下图:
![论文笔记之---Joint Detection and Identification Feature Learning for Person Search 论文笔记之---Joint Detection and Identification Feature Learning for Person Search](https://image.shishitao.com:8440/aHR0cHM6Ly93d3cuaXRkYWFuLmNvbS9nby9hSFIwY0RvdkwybHRaeTVpYkc5bkxtTnpaRzR1Ym1WMEx6SXdNVGN3TXpBME1UWTFOVFExTmpjeA%3D%3D.jpg?w=700&webp=1)
5.将特征映射到低维子空间对结果的影响:
![论文笔记之---Joint Detection and Identification Feature Learning for Person Search 论文笔记之---Joint Detection and Identification Feature Learning for Person Search](https://image.shishitao.com:8440/aHR0cHM6Ly93d3cuaXRkYWFuLmNvbS9nby9hSFIwY0RvdkwybHRaeTVpYkc5bkxtTnpaRzR1Ym1WMEx6SXdNVGN3TXpBME1UWTFOakV4TVRZdw%3D%3D.jpg?w=700&webp=1)
6.detection recall rates对mAP的影响:
![论文笔记之---Joint Detection and Identification Feature Learning for Person Search 论文笔记之---Joint Detection and Identification Feature Learning for Person Search](https://image.shishitao.com:8440/aHR0cHM6Ly93d3cuaXRkYWFuLmNvbS9nby9hSFIwY0RvdkwybHRaeTVpYkc5bkxtTnpaRzR1Ym1WMEx6SXdNVGN3TXpBME1UWTFOak15TWpnMg%3D%3D.jpg?w=700&webp=1)
7.Gallery size对mAP的影响:
![论文笔记之---Joint Detection and Identification Feature Learning for Person Search 论文笔记之---Joint Detection and Identification Feature Learning for Person Search](https://image.shishitao.com:8440/aHR0cHM6Ly93d3cuaXRkYWFuLmNvbS9nby9hSFIwY0RvdkwybHRaeTVpYkc5bkxtTnpaRzR1Ym1WMEx6SXdNVGN3TXpBME1UWTFOalUwTXprMg%3D%3D.jpg?w=700&webp=1)
六. Conclusion本文提出了解决行人搜索的一种新框架,将检测和识别问题结合起来,利用单个CNN来解决。在网络的训练过程中使用了OIM损失函数,优点在于可以应用到更大规模的数据集中。