1.摘要
这篇论文发布了一个可以研究端到端的行人检测-重识别的大规模数据集和一些baselines,baselines主要包括不同检测器和reid识别算法组合的性能,行人检测怎么有助于reid准确率的提升及评估不同检测器对reid的有效性。
贡献:
- PRW数据集及基于数据集的广泛的benchmark(state-of-the-art detection and recognition methods on the PRW dataset)
- 提出两个有效的检测辅助reid方法:级联微调训练策略(充分利用detector得到的数据)+CWS(Confidence Weighted Similarity,加入到相似度度量中(给错检附更低的权重,即通过优化相似度计算的方法改进detector对reid的影响,因为gallery size不再固定,会随IOU阈值的设置或者不同detector的选择导致gallery size的增加),抑制由于错检(false positive detections)对reid性能的影响)
- 一些对特定场景下针对reid任务的检测器性能评价和一些关于发布数据集的实验结论
2.引言
很少有文献分析检测器怎样更好地被应用到reid任务上来,检测和reid往往是单独研究,数据集为人为或者使用某一detector裁剪好的行人组成的。作者开创性的在自己的数据集上研究了不同检测器和reid识别方法组合的性能,研究是否检测可以帮助提升reid准确率,研究选择怎样的检测器可以最大程度的提升reid准确率。
行人检测数据集:Caltech (∼350k bounding boxes from ∼132k frames),Inria(1,805 128×64images),KITTI(80k labels for the pedestrian class)等无ID标注
行人重识别数据集:VIPeR,CUHK03等不提供完全的视频针图像
detectors有:CNN(RCNN+AlexNet ,RCNN+VGGNet+RCNN+ResidualNet)(proposal+CNN)
gallery由detector创建,作者发现,特定的reid方法和其发布的数据下,detector采用IoU>0.7的评估是更有效的rule,而不再是IOU>0.5,这一结论说明detectors的定位能力非常重要,即定位的准,会使检测的misalign影响更低,得到更高的reid准确率!
3.相关的工作
数据集的描述:
数据集比较:
PRW都是人工标注,详细的对比:
6 cameras:5 are 1080×1920 HD and 1 is 576×720 SD
Market1501数据集中有的ID,我们在标注该PRW时,若遇到同一个人,也会手工标注,并且标注了数据集中所有的行人框,对于所有不确定是哪个的ID的则标记ID为-2,这些模糊ID的行人标注框可用于detector的训练和测试,但是在reid阶段会被排除,不利用他们。
GT标注使我们联合评判行人检测和reid成为可能。
下面是采用DPM+RCNN(AlexNet)作为detector检测frame得到的检测结果样例:当形成gallery时,一般检测器会生成100k-500k的boxes(依据阈值的设置),采用PR,AP,MR protocol评价detectors性能。
数据集评价拆分标准设置:训练和测试可能有重叠,但很小!
测试时,reid是一个1:N的匹配检索过程,对于每一个ID,随机采样某一摄像头视角下的一个裁剪query,6个视角下6,112张测试图片,450ID大概会有2057个query images,平均每个ID为4.57个queries。N为每一次测试对应的query会产生的gallery中裁剪出来的行人块数(另外,不同的检测阈值设置和不同的detector产生的gallery大小不同),gallery中含IDs的行人块数由与GT标注的IOU阈值决定(此处的阈值不同域检测阈值!!!作者分IoU>0.5和IoU>0.7,验证了检测器阈值对reid识别结果的影响),另外,两个评估reid识别性能的指标:mAP(所有每个query的AP(recalls uniformly sampled from [0; 1],如均匀取10个点,理想下,密集采样后的面积为AP)值的平均值)和Top-K matching rate(作者实验采用的是rank-1, 10, 20,denoting the possibility to locate at least one true positive in the top-1, 10, 20 ranks)
当画 the end-to-end re-ID的最终性能的mAP曲线时,IOU约束紧时,每一张image上会有很少的检测框时,检测器虽是准确的,但是recall会很低,所以会有小的mAP,IoU约束松时,gallery会产生更多的false positive detections, 所以也会有较低mAP受the influence of distractors(即IOU设置小时,会有更多框被标记为带ID,)。
我们可以用平均每张图像的detection 框数代表IOU的设置,所以mAP和Rank-k随Boxes per image的变化曲线形式如下:即最高处一般对应着IoU>0.7的设置
一个完整的从头开始的行人重识别pipeline
训练时,我们从自己设计的detector生成的gallery中被检测出的认为带有ID的框采集样本用于多分类训练(因为大概每个ID有超过50个样本行人框),另外注意,分ID类用训练集不包括错检框(无ID监督信息,因为如果加上他们作为另一类就太大数量了,对每个ID而言,这样样本的不均衡性会变大,使模型难以训练),另外作者强调,没有用任何数据增强的操作。
During training, a CNN embedding is learned to discriminate different identities.
During testing, features of the detected bounding box are extracted ,following which Euclidean distance or learned metrics are used for similarity calculation.
作者命名采用自己所采用的CNN学习discriminate different identities的网络为IDE(ID-discriminative Embedding)(与AlexNet有关),两个不同两个描述子IDE(imagenet)和IDE(det),后者采用了cascaded fine-tuning strategy,即在Imagnet预训练模型参数初始化之上,先用检测数据(所有人工标注的行人框,不分有无ID)做finetune一个行人检测模型,训练一个RCNN的二类识别模型,再使用PRW的detector产生的训练数据集finetune 一个482类的识别模型,而前者不包含在检测数据即上的finetune,而是finetuneIDE直接从AlexNet pre-trained on ImageNet。
cascaded fine-tuning strategy这样做的好处:
研究并确定检测怎样帮助reid并提供一些评估reid任务中检测器性能的见解,在每个ID有充足数量的数据的情况下,作者说明了采取identification model来学习一个CNN 嵌入的行人空间往往会比Siamese model取得更好的效果。
作者尽管采用Confidence Weighted Similarity来减少fals positive对reid准确率的影响,但是在将来,更复杂的权重设置方法设计到度量学习中可能是一个很好的研究方向。
一系列的实验。。。
实验结论:
IDE强于手工特征,IDE+state-of-the-art度量学习方案更优
when more background and pedestrian samples are “seen”, the re-ID feature is more robust against outliers.
In fact, a promising direction is to utilize more background and pedestrian samples without ID that are cheaper to collect in order to pre-train the IDE model.Experiment of the two IDE variants provides one feasible solution of how detection aids re-ID。For IDE, we find that fine-tuning an R-CNN model can be a better initialization point for IDE training.
CWS is effective in preventing re-ID accuracy from dropping as the number of detections per image increase。As discussed before, more distractors are present when the database get larger and CWS addresses the problem by suppressing the scores of false positive results.
接下来,把CWS扩展到度量学习中会是一个很好的工作!
作者进行了广泛的实验,来指导怎么选择一个更好的检测器和检测标准对于reid的实际应用。未来,有几个方向可以考虑一下:
- 设计有效的框回归方案来提升行人框定位精度,总而提升行人匹配正确率
- 设计更复杂有效的权重方案,用检测的置信度或其他来指导更有效的相似度计算
- re-ranking方法对于可扩展的reid应用很有帮助
- 怎样能够利用无ID标注的现存数据或若标签数据来提升reid性能也具有重要的研究价值
- 检测和识别的联合学习问题,而不是组合形式,更符合reid实用需求
- 有效的基于部件的reid,如对齐网络的引进和设计,将极大提升端到端网络的reid性能