基于深度学习的目标跟踪

链接：

综述(作者的个人理解一刀流)

内容摘要：R-CNN是Region-based Convolutional Neural Networks的缩写，中文翻译是基于区域的卷积神经网络，是一种结合区域提名（Region Proposal）和卷积神经网络（CNN）的目标检测方法。Ross Girshick在2013年的开山之作《Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation》[1]奠定了这个子领域的基础，这篇论文后续版本发表在CVPR 2014[2]，期刊版本发表在PAMI 2015[3]。

其实在R-CNN之前已经有很多研究者尝试用Deep Learning的方法来做目标检测了，包括OverFeat[7]，但R-CNN是第一个真正可以工业级应用的解决方案，这也和深度学习本身的发展类似，神经网络、卷积网络都不是什么新概念，但在本世纪突然真正变得可行，而一旦可行之后再迅猛发展也不足为奇了。

R-CNN这个领域目前研究非常活跃，先后出现了R-CNN[1,2,3,18]、SPP-net[4,19]、Fast R-CNN[14, 20] 、Faster R-CNN[5,21]、R-FCN[16,24]、YOLO[15,22]、SSD[17,23]等研究。Ross Girshick作为这个领域的开山鼻祖总是神一样的存在，R-CNN、Fast R-CNN、Faster R-CNN、YOLO都和他有关。这些创新的工作其实很多时候是把一些传统视觉领域的方法和深度学习结合起来了，比如选择性搜索（Selective Search)和图像金字塔（Pyramid）等。

第一步是要做区域提名（Region Proposal）：找出可能的感兴趣区域（Region Of Interest, ROI）

一、滑动窗口：本质上就是穷举法（不同的尺度和长宽比把所有可能的大大小小的块都穷举出来，然后送去识别），复杂度太高，产生了很多的冗余候选区域，在现实当中不可行。

二、规则块：穷举法的基础上进行了一些剪枝，只选用固定的大小和长宽比，对于普通的目标检测来说，规则块依然需要访问很多的位置，复杂度高。

三、选择性搜索：核心在于如何有效地去除冗余候选区域（其实冗余候选区域大多是发生了重叠）。方法：自底向上合并相邻的重叠区域，从而减少冗余。选择性搜索采用多样性策略来增加候选区域以保证召回，比如颜色空间考虑RGB、灰度、HSV及其变种等，相似度计算时既考虑颜色相似度，又考虑纹理、大小、重叠情况等。

总体上，选择性搜索是一种比较朴素的区域提名方法，被早期的基于深度学习的目标检测方法（包括Overfeat和R-CNN等）广泛利用，但被当前的新方法弃用了。

OverFeat是用CNN统一来做分类、定位和检测的经典之作，作者是深度学习大神之一————Yann Lecun在纽约大学的团队。OverFeat也是ILSVRC 2013任务3（分类+定位）的冠军得主[10]。

Overfeat是CNN用来做目标检测的早期工作，主要思想是采用了多尺度滑动窗口来做分类、定位和检测，虽然是多个任务但重用了模型前面几层，这种模型重用的思路也是后来R-CNN系列不断沿用和改进的经典做法。

当然Overfeat也是有不少缺点的，至少速度和效果都有很大改进空间，后面的R-CNN系列在这两方面做了很多提升。

基于区域提名的方法，包括R-CNN、SPP-net、Fast R-CNN、Faster R-CNN、R-FCN。

1.R-CNN：Overfeat可以看做是R-CNN的一个特殊情况，只需要把Selective Search（RCNN）换成多尺度的滑动窗口(Overfeat)，每个类别的边框回归器换成统一的边框回归器，SVM换为多层网络即可。但是Overfeat实际比R-CNN快9倍，这主要得益于卷积相关的共享计算。

事实上，R-CNN有很多缺点：重复计算,SVM模型,训练测试分为多步,训练的空间和时间代价很高,慢(GPU上处理一张图片需要13秒，CPU上则需要53秒)

R-CNN效果好，其中ILSVRC 2013数据集上的mAP由Overfeat的24.3%提升到了31.4%，第一次有了质的改变。

2.Fast R-CNN是要解决R-CNN和SPP-net两千个左右候选框带来的重复计算问题，其主要思想为：使用一个简化的SPP层，训练和测试是不再分多步，SVD

Fast R-CNN比R-CNN的训练速度（大模型L）快8.8倍，测试时间快213倍，比SPP-net训练速度快2.6倍，测试速度快10倍左右。

3.Faster R-CNN则直接利用RPN（Region Proposal Networks)网络来计算候选框，抛弃了Selective Search，引入了RPN网络，使得区域提名、分类、回归一起共用卷积特征，从而得到了进一步的加速。但是，Faster R-CNN需要对两万个Anchor Box先判断是否是目标（目标判定），然后再进行目标识别，分成了两步。

4.R-FCN则将目标检测最后的全连接层之类换为了一个位置敏感的的卷积网络，从而让所有计算都可以共享。

端到端（End-to-End）的目标检测方法，这些方法无需区域提名，包括YOLO和SSD

YOLO的全拼是You Only Look Once，顾名思义就是只看一次，进一步把目标判定和目标识别合二为一，所以识别性能有了很大提升，达到每秒45帧，而在快速版YOLO(Fast YOLO，卷积层更少)中，可以达到每秒155帧。

秒客网

基于深度学习的目标跟踪

相关文章