论文笔记:Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

时间:2023-12-16 21:51:50

Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

2019-03-20 16:45:23

Paperhttps://arxiv.org/pdf/1812.06148.pdf

Code:(尚无)

背景与动机:

本文提出一种级联的 RPN 网络结合到 Siamese RPN 网络中,然后取得了更好的跟踪效果。本文的动机如下:
1). 正负样本的比例,不一致,导致 Siamese Network 的训练不够有效;大部分的负样本都是简单样本,对最终的结果贡献很小,所以,在出现相似物体的时候,经常会出现跟踪混淆;

2). Low-level spatial features 并没有充分的被探索;

3). One-stage Siamese RPN 采用 单个回归器进行物体的定位,但是实际上并没有很好的处理跟踪中物体的尺寸变换的问题。利用预先定义好的 Coarse anchor Box 不能很好的进行精确的定位;

于是,根据上述动机,作者引入 多级的 RPN 网络,来解决定位问题;同时选择 hard negative samples 来改善网络的鲁棒性。此外,作者还引入了多层特征的融合,得到了更好的特征表达。

论文笔记:Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

网络结构

1. Siamese-RPN 的简介:

论文笔记:Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

  详见其原始 paper:High performance visual tracking with siamese region proposal network

2. Cascaded RPN:

前人的方法大部分都忽略了 class imbalance 的问题,导致在出现相似性物体的时候,效果不佳。此外,他们也仅用 high-level semantic features 来进行跟踪,而很少考虑 multi-level feature。为了解决上述这两个问题,本文提出多阶段的跟踪方法,细节如下:

对于每一个阶段的 RPN,其利用 FTB 模块来融合来自第 l 个 convolutional layer 的特征 以及 high-level feature,融合后的特征可以用下面的公式进行表达:

论文笔记:Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

其中 FTB 代表如下图所示的多特征融合模块。主要是对较低分辨率的图像利用 Deconvlutional layer 进行升分辨率处理,得到的特征卷积后,与另外一支进行元素集相加(element-wise summarize)得到最终的结果,细节见图 6。

论文笔记:Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

对于,RPN-1 来说,论文笔记:Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

所以,stage l 中每一个 anchor 的分类得分 和 回归的偏执,计算如下:

论文笔记:Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

我们用 Al 表示在阶段 l 的 anchor set。根据分类的得分,我们可以过滤出该集合中的样本,当其 negative confidence 大于预先设定的阈值时。然后,剩下的那些样本就构成了新的 anchor 集合 Al+1,并且用于训练 RPNl+1。此外,为了提供更好的初始化,我们优化了 Al+1 中 anchor 的 center location 以及 size,所以,产生了更加准确的定位。作者也提供了一个案例,来表明 BBox 的准确性提升。

论文笔记:Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

RPNl 的损失函数 $L_{RPN_l}$ 包含分类损失 $L_{cls}$ 以及 回归损失 $L_{loc}$,其定义如下:

论文笔记:Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

其中,$r_i^{l*}$ 表示 anchor i 和 gt 之间的真实距离。服从前人工作,作者也将 $r_i^{l*}$ 设置为 4d 的向量,如下所示:

论文笔记:Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

其中,x, y, w, h 是 BBox 的中心点 及其 宽高。与常规的固定 anchor 不同,C-RPN 的 anchors 可以进行微调:

论文笔记:Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

对于第一个阶段的 anchor,$x_a^1, y_a^1, w_a^1, h_a^1$ 是预先设定的。

【注】此处关于损失函数讲的不是特别清晰,关于回归损失函数的定义,可以参考 Faster RCNN

上述过程构成了所提出的级联 RPN。其最终的损失函数 $L_{CRPN}$ 就是各个 RPN 损失函数的和:

论文笔记:Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

论文笔记:Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

实验结果

论文笔记:Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

论文笔记:Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

论文笔记:Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

论文笔记:Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

==