DaSiam:Distractor-Aware Siamese Networks for Visual Object Tracking
简述:
目前,在视觉跟踪领域,孪生网络(Siamese networks)在精度和速度方面都达到了不错的性能。但是多数是在非语义背景(即背景没有干扰,比如跟踪一个动物,只有它一个,没有其他的)的情况下。而在语义背景的情况下,会干扰Siamese 网络的鲁棒性。针对此,作者为了精确且长时间的跟踪,提出一种distractor-aware的孪生网络,解决由于训练数据分布不均衡带来的系统识别性差的问题。在off-line training阶段,引入一种有效的抽样策略(sampling strategy)使得模型集中于语义干扰。此外,提出一种local-to-global search region strategy。效果短期跟踪160fps,长期跟踪110fps。
问题Or相关工作:
存在三个问题:
1. 常见的siam类跟踪方法只能区分目标和无语义信息的背景,当有语义的物体是背景时,也就是有干扰物(distractor)时,表现不是很好。
2. 大部分siam类跟踪器在跟踪阶段不能更新模型,训练好的模型对不同特定目标都是一样的。这样带来了高速度,也相应牺牲了精度。
3. 在长时跟踪的应用上,siam类跟踪器不能很好的应对全遮挡、目标出画面等挑战。
如图,Siamese网络跟踪器响应热度图的可视化,可见对于有语义的背景,现有的孪生网络结构并不是那么的好。
针对以上三个问题,分别给出了解决方案,
1. 训练数据中非语义背景和语义干扰的不一致性是表征学习的主要障碍,高质量的训练数据是端到端学习跟踪器成功的关键。为此作者在训练过程中生成不同的语义负样本对,并对数据进行了扩充。
2. 典型的孪生网络在复杂的情况(目标变形、背景有干扰物等)下性能很差,对此作者认为上下文信息及时间信息可以提高辨识能力,并设计了新的干扰感知模块(a novel distractor-aware module)来捕获目标。
3.传统的孪生网络采用本地搜索区域,无法应对如遮挡或长期跟踪的挑战,作者采用从局部到全局(local-to-global)的搜索区域策略来提升性能。
Distractor-Aware Siamese Networks:
在SiamFC和SiamRPN中,对于每个搜索区域,非语义背景占多数,语义实体和干扰物占较少。这种不平衡的分布使得训练模型很难学习实例级表示,而更倾向于学习前景和背景之间的差异。针对此作者提出在离线训练过程中主动生成更多的语义对(semantics pairs),来提高系统的表征能力,抑制在线跟踪中的干扰因素。
Distractor-Aware Training
针对提高训练数据的质量,作者介绍了以下几个策略来消除训练数据不平衡分布的情况。
1. 使用检测数据的集中样本对(上图a):
SiamFC使用的ILSVRC数据集为20类,SiamRPN使用的Youtube-BB数据集为30类,作者认为类别太少,不能训练出高质量的具有泛化能力的Siamese跟踪特征。作者引入大规模的ImageNet检测和COCO检测数据集,通过一些数据增强技术(平移、缩放、灰度变换、运动模糊等)构造出样本对,其多样性能够提高跟踪器的识别能力及回归精度。
2. 使用来自相同(上图b)&不同类别(上图c)的负样本对。
数据集不平衡:1. SiamFC和SiamRPN中语义负样本对过少,单纯的背景多(也就是除了要跟踪的object,没有别的object),造成知识学习了前背景差异,而忽略了语义对象之间的不同。2. 类内干扰物(intraclass distractors),作者构造相同&不同类别的负样本对,相同类别的负样本对可以使跟踪器专注于细节,不同类别的样本对可以使跟踪器在有遮挡等情况下一道其他的物体。
Distractor-Aware Incremental Learning:
现有的基于Siamese网络的方法在快速移动或背景杂波的情况下,性能较差,如上图3a。问题在于一般表示域和特定目标域的不一致。作者针对此提出了一个干扰感知模块来有效地将一般的表示转换到视频域。
传统的详细学习在进行相似度计算时,如下式:
作者提出了一种新的选择最优bbox的标准,如下式:
可以看出,其实就是当前位置p_k和模板z计算相似度之后,减去当前位置与search region中其他位置(干扰物)的相似度的加权和。但上式计算复杂,由于交叉相关(互相关)操作是一个线性操作,可以表示如下式:
结合律激励我们以一定的学习率β_t逐步学习目标模板和干扰模板:
以上操作可以将现有的相似度指标(一般)调整为新领域(特定)的相似度指标。
将DaSiamRPN用于Long-term跟踪
如上图(红色是ground truth,绿色的是跟踪结果,蓝色的是search region),可见SiamRPN当目标丢失再次出现时,跟踪效果不好。而DaSiamRPN跟踪效果好。作者方法: 当模型跟踪失败的时候(检测失败的方法:注意力分散感知训练和推理能够得到高质量的检测分数,利用这个数据来表示跟踪结果的质量),模型采取一种“局部-全局”增大search region的策略去重新跟踪目标。搜索区域的大小是迭代增长的一个常数步,使用包围盒回归来检测目标,不会耗时,作者在100FPS中实现长期跟踪。
结论:
总结如下:
1. 提出了一种基于干扰感知的特征学习方案,有效地提高了网络的识别能力。
2.设计了一种新的干扰感知模块,有效地将一般的嵌入转移到当前的视频域。
3.提出了一种从局部到全局的搜索策略,扩展了所提出的长期跟踪方法。(精度可以,实时性不太好)