2017目标跟踪算法综述
作者:Kindle君 时间:2017年7月31日。 声明:版权所有,转载请联系作者并注明出处
本文所提的跟踪主要指的是单目标跟踪,多目标跟踪暂时不作为考虑范围。
本文主要从常用的评价标准,如EAO,EFO,fps等,分析2016-2017年最新出的目标跟踪文章在应用层面的优缺点。
算法原理不作为本文重点,旨在对比不同方法的“效果和时间性能”,方便大家根据不同的业务常见选择不同的方法。
本文按照以下几类进行展开,并不局限于传统方法或者深度学习。 TCNN & C-COT & ECO (根据名次递增) CFNet & DCFNet & SANet & DRLT (端到端CNN & RNN) CA-CF & BACF (利用背景信息,框架性通用改进) ACET & Deep-LK (优于C-COT or MDNet, 且CPU实时) LMCF & Vision-based (速度提升,但性能提升不明显CPU实时)
目标跟踪VOT2016 BenchMark评价标准介绍
见 目标跟踪VOT2016 BenchMark评价标准介绍
推荐网站
OTB Results : 这是foolwood总结的目标跟踪发展主线图: 这是foolwood总结的 这是浙江大学Mengmeng Wang同学在极视角公开课上展示的一个总结: foolwood这个人在github上最新的一些跟踪方法常见数据集上的结果比较。
Tracker
AUC-CVPR2013
Precision-CVPR2013
AUC-OTB100
Precision-OTB100
AUC-OTB50
Precision-OTB50
Deep Learning
ECO
-
-
0.694
-
-
-
Y
SANet
-
-
0.692
0.928
-
-
Y
MDNet
0.708
0.948
0.678
0.909
0.645
0.890
Y
TCNN
0.682
0.937
0.654
0.884
-
-
Y
C-COT
0.673
0.899
0.671
0.898
0.614
0.843
N
CRT
-
-
0.644
0.875
0.594
0.835
N
DNT
0.664
0.907
0.627
0.851
-
-
Y
SINT+
0.655
0.882
-
-
-
-
Y
DRT
0.655
0.892
-
-
-
-
Y
RDT
0.654
-
0.603
-
-
-
Y
SRDCFdecon
0.653
0.870
0.627
0.825
0.560
0.764
N
DeepLMCF
0.643
0.892
-
-
-
-
Y
MUSTer
0.641
0.865
0.575
0.774
-
-
N
DeepSRDCF
0.641
0.849
0.635
0.851
0.560
0.772
Y
SINT
0.635
0.851
-
-
-
-
Y
LCT
0.628
0.848
0.562
0.762
0.492
0.691
N
SRDCF
0.626
0.838
0.598
0.789
0.539
0.732
N
LMCF
0.624
0.839
-
-
-
-
N
SCF
0.623
0.874
-
-
-
-
N
SiamFC
0.612
0.815
-
-
-
-
Y
SiamFC_{3s}
0.608
0.809
0.582
0.773
-
-
Y
CF2
0.605
0.891
0.562
0.837
0.513
0.803
Y
HDT
0.603
0.889
0.654
0.848
0.515
0.804
Y
Staple
0.600
0.793
0.578
0.784
-
-
N
FCNT
0.599
0.856
-
-
-
-
Y
CNN-SVM
0.597
0.852
0.554
0.814
0.512
0.769
Y
SCT
0.595
0.845
-
-
-
-
Y
SO-DLT
0.595
0.810
-
-
-
-
Y
BIT
0.593
0.817
-
-
-
-
N
DLSSVM
0.589
0.829
0.541
0.767
-
-
Y
SAMF
0.579
0.785
0.535
0.743
-
-
N
RPT
0.577
0.805
-
-
-
-
N
MEEM
0.566
0.830
0.530
0.781
0.473
0.712
N
DSST
0.554
0.737
0.520
0.693
0.463
0.625
N
CNT
0.545
0.723
-
-
-
-
Y
TGPR
0.529
0.766
0.458
0.643
-
-
N
KCF
0.514
0.740
0.477
0.693
0.403
0.611
N
GOTURN
0.444
0.620
0.427
0.572
-
-
Y
TCNN & C-COT & ECO (根据名次递增)
==TCNN:17_arXiv CVPR_(TCNN)_Modeling and Propagating CNNs in a Tree Structure for Visual Tracking==
2016年8月25提交,已发表在CVPR
2016年VOT比赛的亚军,效果最佳,性能较差,但树结构的思想可以借鉴
方法
dataset
帧率fps
机器配置
是否Deep Learning
TCNN
OTB-50、OTB-100、VOT-2015
1.5
Intel Core i7-5820K CPU with 3.30GHz and a single NVIDIA GeForce GTX TITAN X GPU
Y
数据源
==C-COT:16_ECCV_(CCOT)_Beyond Correlation Filters - Learning Continuous==
2016年8月29提交
VOT2016第一名
速度较慢,性能很好,思路可以借鉴
方法
dataset
帧率fps
机器配置
是否Deep Learning
C-COT
OTB-2015、Temple-Color
1.05
i5 6600 4.5GHz(网上别人测的)
Y
数据源
==ECO==:
2016年11月28提交
效果最好,性能最佳
方法
dataset
帧率fps
机器配置
是否Deep Learning
ECO
VOT2016
6 (不含特征提取)
a 4-core Intel Core i7-6700 CPU at 3:4 GHz.
Y
8 (含特征提取)
a 4-core Intel Core i7-6700 CPU at 3:4 GHz. & a Tesla K40 GPU
Y
ECO-HC
UAV123
60(含特征提取)
a 4-core Intel Core i7-6700 CPU at 3:4 GHz
N
ECO
TempleColor
a gain of 0:8% in AUC than C-COT
ECO-HC
OTB-2015
60fps(含特征提取)
a 4-core Intel Core i7-6700 CPU at 3:4 GHz
N
数据源
CFNet & DCFNet & SANet & DRLT (端到端CNN & RNN)
==CFNet==:
2017年4月20日提交到arXiv CVPR
在保证一定效果的情况下,参数占用空间较小100-600k
GPU下可达到实时
方法
dataset
帧率fps
机器配置
是否Deep Learning
CFNet
OTB-2013、OTB-50、OTB-100
43-83
4.0GHz Intel i7 CPU and an NVIDIATitan X GPU
Y
数据源
==DCFNet(17_arXiv prePrint_(DCFNet)_ Discriminant Correlation Filters Network for Visual Tracking)==
2017年4月13日发表到CVPR,作者foolwood,就是最开始提的那个会及时tracker的github博主,代码开源了:https://github.com/foolwood/DCFNet
效果和速度较CFNet均有提升,且GPU比CFNet的GPU更低端
存储空间更小,工程化的可能性比CFNet更大:The convolutional layers of our lightweight network (only 75KB) consist of conv1 from VGG [14] with all pooling layers removed and the output forced to 32 channels
在NUS-PRO、TempleColor128、UAV123训练,在OTB-2013、OTB-2015、VOT-2015上测试
用到了RNN, 输入crop到125x125
方法
dataset
帧率fps
机器配置
是否Deep Learning
DCFNet
OTB-2013、OTB-2015、VOT-2015
36.86-89.44
Intel Xeon 2630 at 2.4GHz and a single NVIDIA GeForce GTX 1080 GPU
Y
==SANet:17_CVPR_(SANet) Structure-Aware Network for Visual Tracking==
2017年5月1日发表CVPR
采用RNN+CNN的架构
可能是因为效果做的比MDNet还要好把,虽然也很耗时
方法
dataset
帧率fps
机器配置
是否Deep Learning
TC-128、OTB100、VOT2015
1
3.7 GHz Intel i7 Core and a NVIDIA GTX TITAN Z GPU
==DRLT:17_arXiv prePrint_(DRLT)_Deep Reinforcement Learning for Visual Object Tracking in Videos==
2017年1月30日提交到arXiv CVPR,4月10日修改
提出一种 convolutional recurrent neural network model, 可以学习到单帧图像的空间表示 以及 多帧图像之间的时序上的表示
端到端的进行训练的 deep RL algorithm,模型完全是 off-line的
模型构成:CNN 特征提取部分(YOLO)+RNN(LSTM) 历史信息构建部分+DEEP-RL模块(第一个用上RL)
有tensorflow源码
在30 challenging and publicly available video sequences 和 8 个tracker比较
方法
dataset
帧率fps
机器配置
是否Deep Learning
DRLT
30 challenging and publicly available video sequences
45
NVIDIA GTX 1080 GPU
Y
数据源
CA-CF & BACF (利用背景信息,框架性通用改进)
2017年CVPR(oral)
出发点是对基于相关滤波的算法进行的框架上的改进,所有用相关滤波的算法都可以套用,牺牲fps,带来显著的性能提升,好文章,可以借鉴!
第二张图是对视频按照每个算法的真实速度进行降采样后的跟踪效果。可以看到用了CA进行改进后的staple效果是最好的
作者除了HCFT [2] (2015 ICCV),比较的都是比较传统的算法,没有与别的用了CNN特征的算法进行比较
方法
dataset
帧率fps
机器配置
是否Deep Learning
CA-CF
OTB-100
Intel Xeon CPU E5-2697 2.6GHz, 256GB RAM) using MATLAB
–
数据源
==BACF:17_CVPR_(BACF)_Learning Background-Aware Correlation Filters for Visual Tracking==
2017年3月14号发表到arXiv CVPR
扩大了循环矩阵采样的区域(样本数量增加),并且在每个样本上裁剪出了有用的样本区域(样本质量变好)
均在CPU上运行,效果优于大多数传统方法,平均帧率35.3;
效果比CCOT稍微好一点,但速度176倍
方法
dataset
帧率fps
机器配置
是否Deep Learning
BACF
OTB-50、OTB-100、TC129、60 challenging videos of VOT-2015
35.3
Intel Core i7 running at 2.40 GHz
N
ACET & Deep-LK (优于C-COT or MDNet, 且CPU实时)
==ACET:17_arXiv prePrint_(ACET)_Active Collaborative Ensemble Tracking==
2017年4月28提交到arXiv CVPR
测试数据集只有OTB-50,但Performance优于C-COT,且CPU实时。
方法
dataset
帧率fps
机器配置
是否Deep Learning
ACET
OTB-50
37.16
P-IV PC at 3.5 GHz, with a Mathlab/C++ implementation
N
p.s. illumination and scale variations (IV, SV), in- and out-of-plane rotations (IPR, OPR), fast motion and motion blur (FM, MB), deformations and low-resolution (DEF, LR), occlusion and shear problem (OCC, OV), and background clutter (BC)
==Deep-LK:17_arXiv prePrint_(Deep-LK)_ for Efficient Adaptive Object Tracking==
2017年5月19提交到arXiv
用AlexNet提特征
在25 challenging videos of the VOT14 上达到75fps(GPU)
在Nfs Video上优于MDNet,但速度提高30倍(CPU)到38倍(GPU)
对比的方法中,只有SRDCF和FCNT效果与MDNet持平,且二者fps差不多,约为MDNet的5倍
CPU下fps为100,只比GOTURN低55.3,但效果好10.4个点
方法
dataset
帧率fps
机器配置
是否Deep Learning
Deep-LK
VOT-2014、Nfs Video
20.7(CPU),75-100(GPU)
未指明
Y
LMCF & Vision-based (速度提升,但性能提升不明显CPU实时)
==LMCF:17_CVPR_(LMCF)_Large Margin Object Tracking with Circulant Feature Maps==
2017年5.15发表到arXiv CVPR
相同机器下,CCOT 0.25fps,LMCF 10fps
性能略好于Staple,速度比SiamF和HCF比较,速度更快
方法
dataset
帧率fps
机器配置
是否Deep Learning
LMCF
OTB-2013、OTB-2015
LMCF 80 & DeepLMCF 10
LMCF with a PC with a 3.60 GHz CPU and DeepLMCF with a tesla k40 GPU
Y
数据源
==Vision-based:17_arXiv prePrint_(NULL)_Vision-based Real-Time Aerial Object Localization and Tracking for UAV Sensing System==
2017年3月19日提交到arXiv CVPR,只测试了15个较难的数据集,而且只和15年之前的方法进行比较,
CPU速度达到141.3fps
方法
dataset
帧率fps
机器配置
是否Deep Learning
Vision-based
选取了15个视频
141.3
in C++ with OpenCV 3.0.0 on a PC with an Intel Xeon W3250 2.67 GHz CPU and 8 GB RAM
N