论文笔记之：RATM: RECURRENT ATTENTIVE TRACKING MODEL

时间：2021-03-23 15:13:34

RATM: RECURRENT ATTENTIVE TRACKING MODEL

　　ICLR 2016

　　本文主要内容是结合 RNN 和 attention model 用来做目标跟踪。

　　其中模型的组成主要是：

　　1. an attention model 主要用来从输入图像中提取 patch；

　　2. RNN 用来预测 attention 参数，即：下一帧应该 look 的问题。

　　Paper: http://xueshu.baidu.com/s?wd=RATM%3A+RECURRENT+ATTENTIVE+TRACKING+MODEL&rsv_bp=0&tn=SE_baiduxueshu_c1gjeupa&rsv_spt=3&ie=utf-8&f=8&rsv_sug2=1&sc_f_para=sc_tasktype%3D%7BfirstSimpleSearch%7D&rsv_n=2

　　Code:https://github.com/wangxiao5791509/RATM

　　本文所使用的框架流程图如下所示：

论文笔记之：RATM: RECURRENT ATTENTIVE TRACKING MODEL 　　

　　1. Attention

　　本文提到， attention model 非常适合跟踪问题，因为他可以通过目标的历史轨迹来缩小 region-of-interst 的区域。

　　原本的 attention model 从输入图像中产生 glimpse（一瞥），是通过一个叫做 a grid of 2D Gaussian filters,顺序的执行一系列的 row filter 和 column filter。该 grid 拥有 4个参数，即：

　　the grid center $g_X, g_Y$，the isotropic standard deviation, and the stride between grid points.

　　对于在 attention patch中的行 i，列 j，平均距离 $\mu_X^i, \mu_Y^j$ 通过下式进行计算：

论文笔记之：RATM: RECURRENT ATTENTIVE TRACKING MODEL

　　动态产生的参数作为一个向量 h 的线性转换：

论文笔记之：RATM: RECURRENT ATTENTIVE TRACKING MODEL

　　然后对参数进行归一化：

论文笔记之：RATM: RECURRENT ATTENTIVE TRACKING MODEL

　　其中 A 和 B 分别是输入图像的宽和高。

　　滤波器通过下面的公式计算得到提取的 patch，即：

论文笔记之：RATM: RECURRENT ATTENTIVE TRACKING MODEL

　　在上式中， a 和 b 代表输入图像的列和行的索引。通过这两个公式就可以得到一个 N*N 的 patch p：

论文笔记之：RATM: RECURRENT ATTENTIVE TRACKING MODEL

　　

　　

　　2. RNN

　　一个最简单的 RNN 包括一个输入，一个 hidden，一个输出层。在时间步骤 t，该网络，基于输入帧 $x_t$ 和之前的 hidden state $h_{t-1}$，计算新的 hidden state：

论文笔记之：RATM: RECURRENT ATTENTIVE TRACKING MODEL

　　本文对 RNN 并未做过多介绍，因为创新点也不在于此，只是说是基于 Theano 框架做的实验。

　　3. Recurrent Attentive Tracking Model：

　　跟踪问题主要是将一系列的输入视频帧 $X = (x_1, x_2, ... , x_T)$ 映射成一系列的位置 $Y = (y_1, y_2, ... , y_T)$。那么在一个时刻 t 的位置预测 $y_t$，那么其轨迹通常具有非常高的相关内容信息，并且非常适合用一个隐层状态模型（a hidden state model）来对这个轨迹进行表示。所提出的 RNN 就是结合了 attention model 和 RNN 的优势，并且区别于普通的神经网络。

　　每一个时间步骤，RNN的 hidden state vector $h_t$ 通过公式2，3 映射成 window parameters。然后在下一个时刻，由 attention model 输出的image patch 作为 RNN 的输入。并非直接将原始图像输入给 RNN,而是用预先训练的 CNN model 提出其feature 传给 RNN。具体结构见下图：

　　论文笔记之：RATM: RECURRENT ATTENTIVE TRACKING MODEL

　　

论文笔记之：RATM: RECURRENT ATTENTIVE TRACKING MODEL

　　实验：

　　本文实验做的并非经典跟踪算法所用的 benchmark，而是 Mnist video 和 Bouncing Balls。

　　说实话，我觉得这个挺扯得，这个也可以用于跟踪的实验？？？ Oh，My God 。。。

　　总体来讲，感觉就是两个模型的组合，并且实验做的并不充分，感觉只是一个示例。。。这要是放到 CVPR 或者 MultiMedia 能被喷死！

　　不过。。。

　　呵呵。。。

　　

　　Mnist 数据集我们知道是一个手写体识别的数据集，我去作者将其转换为视频格式，自己造了一个跟踪视频，不知道是否有跟踪上的各种挑战，即：部分遮挡，阴影变化，以及复杂背景这些具有挑战性的因素估计都没有，额不喷了。。。浪费时间。。。。

　　论文笔记之：RATM: RECURRENT ATTENTIVE TRACKING MODEL

　　论文笔记之：RATM: RECURRENT ATTENTIVE TRACKING MODEL

论文笔记之：RATM: RECURRENT ATTENTIVE TRACKING MODEL

相关文章

论文笔记之：RATM: RECURRENT ATTENTIVE TRACKING MODEL

