2017目标跟踪算法综述

作者：Kindle君
时间：2017年7月31日。
声明：版权所有，转载请联系作者并注明出处

本文所提的跟踪主要指的是单目标跟踪，多目标跟踪暂时不作为考虑范围。

本文主要从常用的评价标准，如EAO,EFO，fps等，分析2016-2017年最新出的目标跟踪文章在应用层面的优缺点。

算法原理不作为本文重点，旨在对比不同方法的“效果和时间性能”，方便大家根据不同的业务常见选择不同的方法。

本文按照以下几类进行展开，并不局限于传统方法或者深度学习。
TCNN & C-COT & ECO (根据名次递增)
CFNet & DCFNet & SANet & DRLT (端到端CNN & RNN)
CA-CF & BACF （利用背景信息，框架性通用改进）
ACET & Deep-LK (优于C-COT or MDNet, 且CPU实时)
LMCF & Vision-based (速度提升，但性能提升不明显CPU实时)

2017目标跟踪算法综述

目标跟踪VOT2016 BenchMark评价标准介绍

见目标跟踪VOT2016 BenchMark评价标准介绍

Tracker	AUC-CVPR2013	Precision-CVPR2013	AUC-OTB100	Precision-OTB100	AUC-OTB50	Precision-OTB50	Deep Learning
ECO	-	-	0.694	-	-	-	Y
SANet	-	-	0.692	0.928	-	-	Y
MDNet	0.708	0.948	0.678	0.909	0.645	0.890	Y
TCNN	0.682	0.937	0.654	0.884	-	-	Y
C-COT	0.673	0.899	0.671	0.898	0.614	0.843	N
CRT	-	-	0.644	0.875	0.594	0.835	N
DNT	0.664	0.907	0.627	0.851	-	-	Y
SINT+	0.655	0.882	-	-	-	-	Y
DRT	0.655	0.892	-	-	-	-	Y
RDT	0.654	-	0.603	-	-	-	Y
SRDCFdecon	0.653	0.870	0.627	0.825	0.560	0.764	N
DeepLMCF	0.643	0.892	-	-	-	-	Y
MUSTer	0.641	0.865	0.575	0.774	-	-	N
DeepSRDCF	0.641	0.849	0.635	0.851	0.560	0.772	Y
SINT	0.635	0.851	-	-	-	-	Y
LCT	0.628	0.848	0.562	0.762	0.492	0.691	N
SRDCF	0.626	0.838	0.598	0.789	0.539	0.732	N
LMCF	0.624	0.839	-	-	-	-	N
SCF	0.623	0.874	-	-	-	-	N
SiamFC	0.612	0.815	-	-	-	-	Y
SiamFC_{3s}	0.608	0.809	0.582	0.773	-	-	Y
CF2	0.605	0.891	0.562	0.837	0.513	0.803	Y
HDT	0.603	0.889	0.654	0.848	0.515	0.804	Y
Staple	0.600	0.793	0.578	0.784	-	-	N
FCNT	0.599	0.856	-	-	-	-	Y
CNN-SVM	0.597	0.852	0.554	0.814	0.512	0.769	Y
SCT	0.595	0.845	-	-	-	-	Y
SO-DLT	0.595	0.810	-	-	-	-	Y
BIT	0.593	0.817	-	-	-	-	N
DLSSVM	0.589	0.829	0.541	0.767	-	-	Y
SAMF	0.579	0.785	0.535	0.743	-	-	N
RPT	0.577	0.805	-	-	-	-	N
MEEM	0.566	0.830	0.530	0.781	0.473	0.712	N
DSST	0.554	0.737	0.520	0.693	0.463	0.625	N
CNT	0.545	0.723	-	-	-	-	Y
TGPR	0.529	0.766	0.458	0.643	-	-	N
KCF	0.514	0.740	0.477	0.693	0.403	0.611	N
GOTURN	0.444	0.620	0.427	0.572	-	-	Y

TCNN & C-COT & ECO (根据名次递增)

==TCNN:17_arXiv CVPR_(TCNN)_Modeling and Propagating CNNs in a Tree Structure for Visual Tracking==

2016年8月25提交，已发表在CVPR

2016年VOT比赛的亚军，效果最佳，性能较差，但树结构的思想可以借鉴

方法	dataset	帧率fps	机器配置	是否Deep Learning
TCNN	OTB-50、OTB-100、VOT-2015	1.5	Intel Core i7-5820K CPU with 3.30GHz and a single NVIDIA GeForce GTX TITAN X GPU	Y

数据源

==C-COT：16_ECCV_(CCOT)_Beyond Correlation Filters - Learning Continuous==

2016年8月29提交

VOT2016第一名

速度较慢，性能很好，思路可以借鉴

方法	dataset	帧率fps	机器配置	是否Deep Learning
C-COT	OTB-2015、Temple-Color	1.05	i5 6600 4.5GHz(网上别人测的)	Y

数据源

==ECO==：

2016年11月28提交

效果最好，性能最佳

方法	dataset	帧率fps	机器配置	是否Deep Learning
ECO	VOT2016	6 (不含特征提取)	a 4-core Intel Core i7-6700 CPU at 3:4 GHz.	Y
		8 (含特征提取)	a 4-core Intel Core i7-6700 CPU at 3:4 GHz. & a Tesla K40 GPU	Y
ECO-HC	UAV123	60(含特征提取)	a 4-core Intel Core i7-6700 CPU at 3:4 GHz	N
ECO	TempleColor		a gain of 0:8% in AUC than C-COT
ECO-HC	OTB-2015	60fps(含特征提取)	a 4-core Intel Core i7-6700 CPU at 3:4 GHz	N

数据源

CFNet & DCFNet & SANet & DRLT (端到端CNN & RNN)

==CFNet==：

2017年4月20日提交到arXiv CVPR

在保证一定效果的情况下，参数占用空间较小100-600k

GPU下可达到实时

方法	dataset	帧率fps	机器配置	是否Deep Learning
CFNet	OTB-2013、OTB-50、OTB-100	43-83	4.0GHz Intel i7 CPU and an NVIDIATitan X GPU	Y

数据源

==DCFNet(17_arXiv prePrint_(DCFNet)_ Discriminant Correlation Filters Network for Visual Tracking)==

2017年4月13日发表到CVPR，作者foolwood，就是最开始提的那个会及时tracker的github博主，代码开源了：https://github.com/foolwood/DCFNet

效果和速度较CFNet均有提升，且GPU比CFNet的GPU更低端

存储空间更小，工程化的可能性比CFNet更大：The convolutional layers of our lightweight network (only
75KB) consist of conv1 from VGG [14] with all pooling layers removed and the output forced to 32 channels

在NUS-PRO、TempleColor128、UAV123训练，在OTB-2013、OTB-2015、VOT-2015上测试

用到了RNN, 输入crop到125x125

方法	dataset	帧率fps	机器配置	是否Deep Learning
DCFNet	OTB-2013、OTB-2015、VOT-2015	36.86-89.44	Intel Xeon 2630 at 2.4GHz and a single NVIDIA GeForce GTX 1080 GPU	Y

数据源

==SANet:17_CVPR_(SANet) Structure-Aware Network for Visual Tracking==

2017年5月1日发表CVPR

采用RNN+CNN的架构

可能是因为效果做的比MDNet还要好把，虽然也很耗时

方法	dataset	帧率fps	机器配置	是否Deep Learning
	TC-128、OTB100、VOT2015	1	3.7 GHz Intel i7 Core and a NVIDIA GTX TITAN Z GPU

数据源

==DRLT:17_arXiv prePrint_(DRLT)_Deep Reinforcement Learning for Visual Object Tracking in Videos==

2017年1月30日提交到arXiv CVPR,4月10日修改

提出一种 convolutional recurrent neural network model, 可以学习到单帧图像的空间表示以及多帧图像之间的时序上的表示

端到端的进行训练的 deep RL algorithm，模型完全是 off-line的

模型构成：CNN 特征提取部分（YOLO）+RNN(LSTM) 历史信息构建部分+DEEP-RL模块（第一个用上RL）

有tensorflow源码

在30 challenging and publicly available video sequences 和 8 个tracker比较

方法	dataset	帧率fps	机器配置	是否Deep Learning
DRLT	30 challenging and publicly available video sequences	45	NVIDIA GTX 1080 GPU	Y

数据源

CA-CF & BACF （利用背景信息，框架性通用改进）

==CA-CF:17_CVPR_(CA-CF)Context-Aware Correlation Filter Tracking==

2017年CVPR(oral)

出发点是对基于相关滤波的算法进行的框架上的改进，所有用相关滤波的算法都可以套用,牺牲fps，带来显著的性能提升，好文章，可以借鉴！

第二张图是对视频按照每个算法的真实速度进行降采样后的跟踪效果。可以看到用了CA进行改进后的staple效果是最好的

作者除了HCFT [2] （2015 ICCV），比较的都是比较传统的算法，没有与别的用了CNN特征的算法进行比较

方法	dataset	帧率fps	机器配置	是否Deep Learning
CA-CF	OTB-100		Intel Xeon CPU E5-2697 2.6GHz, 256GB RAM) using MATLAB	–

数据源

==BACF:17_CVPR_(BACF)_Learning Background-Aware Correlation Filters for Visual Tracking==

2017年3月14号发表到arXiv CVPR

扩大了循环矩阵采样的区域（样本数量增加），并且在每个样本上裁剪出了有用的样本区域（样本质量变好）

均在CPU上运行，效果优于大多数传统方法，平均帧率35.3；

效果比CCOT稍微好一点，但速度176倍

方法	dataset	帧率fps	机器配置	是否Deep Learning
BACF	OTB-50、OTB-100、TC129、60 challenging videos of VOT-2015	35.3	Intel Core i7 running at 2.40 GHz	N

数据源

ACET & Deep-LK (优于C-COT or MDNet, 且CPU实时)

==ACET:17_arXiv prePrint_(ACET)_Active Collaborative Ensemble Tracking==

2017年4月28提交到arXiv CVPR

测试数据集只有OTB-50,但Performance优于C-COT，且CPU实时。

方法	dataset	帧率fps	机器配置	是否Deep Learning
ACET	OTB-50	37.16	P-IV PC at 3.5 GHz, with a Mathlab/C++ implementation	N

2017目标跟踪算法综述
p.s.
illumination and scale variations (IV, SV), in- and out-of-plane rotations (IPR, OPR), fast motion and motion blur (FM, MB),
deformations and low-resolution (DEF, LR), occlusion and
shear problem (OCC, OV), and background clutter (BC)

==Deep-LK:17_arXiv prePrint_(Deep-LK)_ for Efficient Adaptive Object Tracking==

2017年5月19提交到arXiv

用AlexNet提特征

在25 challenging videos of the VOT14 上达到75fps(GPU)

在Nfs Video上优于MDNet，但速度提高30倍（CPU）到38倍（GPU）

对比的方法中，只有SRDCF和FCNT效果与MDNet持平，且二者fps差不多，约为MDNet的5倍

CPU下fps为100，只比GOTURN低55.3,但效果好10.4个点

方法	dataset	帧率fps	机器配置	是否Deep Learning
Deep-LK	VOT-2014、Nfs Video	20.7(CPU),75-100(GPU)	未指明	Y

数据源

LMCF & Vision-based (速度提升，但性能提升不明显CPU实时)

==LMCF:17_CVPR_(LMCF)_Large Margin Object Tracking with Circulant Feature Maps==

2017年5.15发表到arXiv CVPR

相同机器下，CCOT 0.25fps，LMCF 10fps

性能略好于Staple,速度比SiamF和HCF比较，速度更快

方法	dataset	帧率fps	机器配置	是否Deep Learning
LMCF	OTB-2013、OTB-2015	LMCF 80 & DeepLMCF 10	LMCF with a PC with a 3.60 GHz CPU and DeepLMCF with a tesla k40 GPU	Y

数据源

==Vision-based:17_arXiv prePrint_(NULL)_Vision-based Real-Time Aerial Object Localization and Tracking for UAV Sensing System==

2017年3月19日提交到arXiv CVPR,只测试了15个较难的数据集，而且只和15年之前的方法进行比较，

CPU速度达到141.3fps

方法	dataset	帧率fps	机器配置	是否Deep Learning
Vision-based	选取了15个视频	141.3	in C++ with OpenCV 3.0.0 on a PC with an Intel Xeon W3250 2.67 GHz CPU and 8 GB RAM	N

2017目标跟踪算法综述

秒客网

2017目标跟踪算法综述

2017目标跟踪算法综述

目标跟踪VOT2016 BenchMark评价标准介绍

推荐网站

TCNN & C-COT & ECO (根据名次递增)

==TCNN:17_arXiv CVPR_(TCNN)_Modeling and Propagating CNNs in a Tree Structure for Visual Tracking==

==C-COT：16_ECCV_(CCOT)_Beyond Correlation Filters - Learning Continuous==

==ECO==：

CFNet & DCFNet & SANet & DRLT (端到端CNN & RNN)

==CFNet==：

==DCFNet(17_arXiv prePrint_(DCFNet)_ Discriminant Correlation Filters Network for Visual Tracking)==

==SANet:17_CVPR_(SANet) Structure-Aware Network for Visual Tracking==

==DRLT:17_arXiv prePrint_(DRLT)_Deep Reinforcement Learning for Visual Object Tracking in Videos==

CA-CF & BACF （利用背景信息，框架性通用改进）

==CA-CF:17_CVPR_(CA-CF)Context-Aware Correlation Filter Tracking==

==BACF:17_CVPR_(BACF)_Learning Background-Aware Correlation Filters for Visual Tracking==

ACET & Deep-LK (优于C-COT or MDNet, 且CPU实时)

==ACET:17_arXiv prePrint_(ACET)_Active Collaborative Ensemble Tracking==

==Deep-LK:17_arXiv prePrint_(Deep-LK)_ for Efficient Adaptive Object Tracking==

LMCF & Vision-based (速度提升，但性能提升不明显CPU实时)

==LMCF:17_CVPR_(LMCF)_Large Margin Object Tracking with Circulant Feature Maps==

==Vision-based:17_arXiv prePrint_(NULL)_Vision-based Real-Time Aerial Object Localization and Tracking for UAV Sensing System==

相关文章