视觉目标跟踪 VOT-ST 冠军方案解读

时间:2024-03-24 14:13:19

视觉目标跟踪 VOT2020-ST 冠军方案解读

本文由 52CV 粉丝投稿,请勿二次转载。

原文:https://zhuanlan.zhihu.com/p/257854666

近日,由计算机视觉*会议 ECCV 联合举办的视觉目标跟踪国际竞赛 VOT2020落下帷幕,我们开发的 RPT/RPTS 跟踪框架有幸获得了 VOT2020 Challenge 主赛道冠军(VOT-ST2020 Winner)。

Visual-Object-Tracking Challenge (VOT) 是国际目标跟踪领域最具权威和影响力的测评平台,由伯明翰大学、卢布尔雅那大学、布拉格捷克技术大学、奥地利科技学院联合创办,旨在评测在复杂场景下单目标跟踪的算法性能。

该竞赛由公开测试集与隐藏测试集组成,测试序列涵盖遮挡、光照变化、快速运动、尺度变化等影响因素。评测集逐年进行更新,不断加入更具挑战性的序列,因此被视为视觉目标跟踪领域最难的竞赛。

视觉目标跟踪 VOT2020-ST 冠军方案解读

    01    

RPT框架

RPT算法框架由目标状态估计网络与在线分类网络两部分组成:

  • 目标状态估计网络受启发自Reppoints算法,将跟踪目标状态表示为特征点集,以提升对目标位姿变化、几何结构变化的建模能力。在视觉目标跟踪任务中,为了方便真值标注与特征提取,目标状态通常用矩形框进行表示。矩形框一方面是对目标区域的一种粗略表示,包含多余的背景;另一方面不具备对目标位姿变化、几何结构变化的建模能力,进而限制了回归精度。因此,我们提出将跟踪目标表示为一系列特征点,通过监督学习目标区域内的语义关键点与极值点,实现更精细的目标状态估计。与此同时,借助于可变形卷积(Deformable Convolution)获取目标区域内语义关键点与极值点上的特征信息,相比较于Single Point Features实现更强有力的特征表达。

视觉目标跟踪 VOT2020-ST 冠军方案解读

  • 在线分类网络由轻量的两层全卷积神经网络构成(类似于ATOM/DROL),使得RPT框架具备对抗周边相似干扰物的强鲁棒性。

视觉目标跟踪 VOT2020-ST 冠军方案解读

除此之外,我们设计了一种多层聚合策略(Multi-level Aggregation),充分利用浅层卷积特征精细的空间信息与深层卷积特征丰富的语义信息,获取更详尽的目标结构信息与更好的区分干扰物的能力。

RPT框架基于VOT2018/VOT2019评测集的EAO分别达到0.51和0.417(Top Performance)。

同时,基于OTB2015数据集的Ablation Study表明,特征点集表示、在线分类器、多层聚合策略分别带来2.2%、1.2%、0.6%的AUC score提升。

视觉目标跟踪 VOT2020-ST 冠军方案解读

视觉目标跟踪 VOT2020-ST 冠军方案解读

    02    

RPTS框架

由于VOT2020使用Segmentation Masks进行标注与性能评估,因此我们在RPT框架中接入VOS网络(modified D3S),实现对目标区域内前景-背景的分割(表示为RPTS)。

具体地,为了充分利用特征点集提供的目标几何结构信息,我们将D3S网络中的GEM模块输出替换为通道图上每个像素到生成特征点集的平均距离,然后与GIM模块输出串接送入Refinement Pathway模块。

视觉目标跟踪 VOT2020-ST 冠军方案解读

除此之外,我们还设计了一种干扰物预警策略(Distractor-aware),当分类得分检测出有多个峰值时,对搜索框区域内潜在干扰物位置进行记录,并基于卡尔曼滤波预测下一帧干扰物可能出现的位置。这一策略可以有效避免一部分跟踪漂移现象。

视觉目标跟踪 VOT2020-ST 冠军方案解读

最终,RPTS 框架在 VOT2020 公开测试集和私密测试集上的 EAO 分别达到 0.5300.547,均位列第一。

视觉目标跟踪 VOT2020-ST 冠军方案解读

    03    

一些尝试/发现

基于孪生网络跟踪器在离线训练过程中,适当增加模板帧与搜索帧之间的采样间隔可以提升算法效果。在 RPT/RPTS 框架训练过程中,我们将最大采样间隔从 100 帧增加至 200 帧。

Reppoints 算法在特征点集第一阶段回归过程中,仅使用距离真值中心点最近的像素作为正样本。在 RPT/RPTS 框架中,我们将指定中心区域内的所有像素均视为正样本,明显提升了算法效果。

RPT 算法输出的特征点集分布并不理想,部分特征点甚至分布在背景区域上。我们认为这一方面是由于背景干扰物等因素的影响,另一方面是由于当前训练数据与监督方式不足以准确地学习到每一个特征点的位置。

RPT 算法相对于 SiamFC++/SiamAttn 表现出更好的回归精度,在一定程度上受益于两阶回归方式。

  • 论文题目:

    RPT: Learning Point Set Representation for Siamese Visual Tracking

  • 论文地址:

    https://arxiv.org/abs/2008.03467

  • 代码地址:

    https://github.com/zhanght021/RPT

虽然 RPT/RPTS 框架在 VOT2018/2019/2020 评测集上均达到了 Top Performance,但仍有比较大的优化空间。当前 RPTv2 版本已经开发完成,其中加入了一些比较有创新性的工作,基于多个跟踪数据集再次刷新了 SOTA 性能,希望能够早日公开。

视觉目标跟踪 VOT2020-ST 冠军方案解读

备注:跟踪

视觉目标跟踪 VOT2020-ST 冠军方案解读

目标跟踪交流群

目标跟踪、视觉跟踪等更多最新技术,

若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:[email protected]

网站:www.52cv.net

视觉目标跟踪 VOT2020-ST 冠军方案解读

在看,让更多人看到  视觉目标跟踪 VOT2020-ST 冠军方案解读