目标检测与识别（概述篇）

之所以写粗略篇主要是自己以前稍微看了一下，还有一点点印象，接下来会逐片精度，希望得到更多的收获，纯干做笔记用，有问题大家可以指出来。参考博客：http://blog.csdn.net/linolzhang/article/details/54344350

RCNN

基于Region Proposal的候选区域选择

边界回归（bounding-box regression) 得到精确的目标区域

算法可以分为四步：

1）候选区域选择

Region Proposal是一类传统的区域提取方法，可以看作不同宽高的滑动窗口，通过窗口滑动获得潜在的目标图像，关于Proposal大家可以看下SelectiveSearch，一般Candidate选项为2k个即可，这里不再详述；根据Proposal提取的目标图像进行归一化，作为CNN的标准输入。

2）CNN特征提取

标准CNN过程，根据输入进行卷积/池化等操作，得到固定维度的输出；

3）分类与边界回归

实际包含两个子步骤，一是对上一步的输出向量进行分类（需要根据特征训练分类器）；二是通过边界回归（bounding-box regression) 得到精确的目标区域，由于实际目标会产生多个子区域，旨在对完成分类的前景目标进行精确的定位与合并，避免多个检出。

目标检测与识别（概述篇）

RCNN存在三个明显的问题：

1）多个候选区域对应的图像需要预先提取，占用较大的磁盘空间；

2）针对传统CNN需要固定尺寸的输入图像，crop/warp（归一化）产生物体截断或拉伸，会导致输入CNN的信息丢失；

3）每一个ProposalRegion都需要进入CNN网络计算，上千个Region存在大量的范围重叠，重复的特征提取带来巨大的计算浪费。

SPP-Net

空间金字塔池化（SpatialPyramid Pooling ）

目标检测与识别（概述篇）

SPP-Net在RCNN的基础上做了实质性的改进：

1）取消了crop/warp图像归一化过程，解决图像变形导致的信息丢失以及存储问题；

2）采用空间金字塔池化（SpatialPyramid Pooling ）替换了全连接层之前的最后一个池化层（上图top）。

为了适应不同分辨率的特征图，定义一种可伸缩的池化层，不管输入分辨率是多大，都可以划分成m*n个部分。这是SPP-net的第一个显著特征，它的输入是conv5特征图以及特征图候选框

尽管SPP-Net贡献很大，仍然存在很多问题：

和RCNN一样，训练过程仍然是隔离的，提取候选框 | 计算CNN特征| SVM分类 | Bounding Box回归独立训练，大量的中间结果需要转存，无法整体训练参数；

SPP-Net在无法同时Tuning在SPP-Layer两边的卷积层和全连接层，很大程度上限制了深度CNN的效果；

在整个过程中，Proposal Region仍然很耗时。

Fast-RCNN

1）卖点1 - 借鉴SPP思路，提出简化版的ROI池化层（注意，没用金字塔），同时加入了候选框映射功能，使得网络能够反向传播，解决了SPP的整体网络训练问题；

2）卖点2 - 多任务Loss层

A）SoftmaxLoss代替了SVM，证明了softmax比SVM更好的效果；

B）SmoothL1Loss取代Bouding box回归。

将分类和边框回归进行合并（又一个开创性的思路），通过多任务Loss层进一步整合深度网络，统一了训练过程，从而提高了算法准确度。

3）全连接层通过SVD加速

这个大家可以自己看，有一定的提升但不是革命性的。

结合上面的改进，模型训练时可对所有层进行更新，除了速度提升外（训练速度是SPP的3倍，测试速度10倍），得到了更好的检测效果（VOC07数据集mAP为70，注：mAP，mean Average Precision）。

Faster-RCNN

提取候选框最常用的SelectiveSearch方法，提取一副图像大概需要2s的时间，改进的EdgeBoxes算法将效率提高到了0.2s。

候选框提取不一定要在原图上做，特征图上同样可以，低分辨率特征图意味着更少的计算量，基于这个假设，MSRA的任少卿等人提出RPN（RegionProposal Network），通过添加额外的RPN分支网络，将候选框提取合并到深度网络中，这正是Faster-RCNN里程碑式的贡献。

目标检测与识别（概述篇）

RPN网络的特点在于通过滑动窗口的方式实现候选框的提取，每个滑动窗口位置生成9个候选窗口（不同尺度、不同宽高），提取对应9个候选窗口（anchor）的特征，用于目标分类和边框回归，与FastRCNN类似。

目标分类只需要区分候选框内特征为前景或者背景。

边框回归确定更精确的目标位置，基本网络结构如下图所示：

目标检测与识别（概述篇）

训练过程中，涉及到的候选框选取，选取依据：

1）丢弃跨越边界的anchor；

2）与样本重叠区域大于0.7的anchor标记为前景，重叠区域小于0.3的标定为背景；

对于每一个位置，通过两个全连接层（目标分类+边框回归）对每个候选框（anchor）进行判断，并且结合概率值进行舍弃（仅保留约300个anchor），没有显式地提取任何候选窗口，完全使用网络自身完成判断和修正。

从模型训练的角度来看，通过使用共享特征交替训练的方式，达到接近实时的性能，交替训练方式描述为：

1）根据现有网络初始化权值w，训练RPN；

2）用RPN提取训练集上的候选区域，用候选区域训练FastRCNN，更新权值w；

3）重复1、2，直到收敛。

因为Faster-RCNN，这种基于CNN的real-time 的目标检测方法看到了希望，在这个方向上有了进一步的研究思路。至此，我们来看一下RCNN网络的演进，如下图所示：

目标检测与识别（概述篇）

Faster RCNN的网络结构（基于VGG16）：

目标检测与识别（概述篇）

YOLO

Region Proposal 过程的优点是能够初步检测有效的 Candidate，缺点是带来效率的降低（Faster构造了两级网络）。YOLO去掉了 Faster的 RPN 过程，直接预测物体的种类和位置。这是一个里程碑似的 Idea！

YOLO 将目标的分类与定位进行合并，将对应位置的信息通过网络，对应到最后面的 7*7的格子上，每个格子对应一个30维的向量，分别代表分类与定位信息。对应图中 30维向量 = （B*5 + C），B是每个Grid对应Bound Box数量，Paper中值为2，C为分类数，值为20。

YOLO 网络图参考如下：

目标检测与识别（概述篇）

SSD

1）开山绝技 - 多尺度

这是对YOLO最大的改进，也是本算法的核心。YOLO基于最后一张 Feature Map（特征图）进行提取和分类，某些细节特征的丢失导致精度下降和小目标遗漏。SSD 在多个尺度（Feature Map）上进行了回归，低层的 feature map 蕴含更多的信息，有利于细节保留及训练误差回传，提高了精度及小目标的适应能力。

目标检测与识别（概述篇）

2）拿来主义 - 宽高比和Anchor

SSD 借鉴了 Faster的锚，假定以目标中心作为Location，以该中心以不同宽高比进行 Rect 扩展（1:1 1:2 2:1），再结合三种不同尺度，这样我们就得到了9种不同的Scale（不考虑太特殊的比例）。

目标检测与识别（概述篇）

不同的Aspect Ratio & Scale 对预测目标进行覆盖，对于每一个feature map来讲，每个Grid Cell对应多个 Predict Boxes，我们假设为K（对应上面K＝9，3种尺度＊3种宽高比），所有中心落在该Grid的目标，都由该Grid进行回归Predict。

So 我们需要预测的结果就是：这K个Box每个对应的分类（概率，C种）和相对默认Rect的偏移（Offset，4个）：

Fature Map Grid => (C+4)*K

对于一张 m*n 大小的 Feature Map，能够得到 m*n * (C+4)*K个输出结果（SSD 中默认使用了 6 个 default boxes）。

YOLOv2

基于V1改进的Trick：

A）Batch Normalization（批量规范化）

先建立这样一个观点：对数据进行预处理（统一格式、均衡化、去噪等）能够大大提高训练速度，提升训练效果。

批量规范化正是基于这个假设的实践，对每一层输入的数据进行加工。

Batch Normalization，简称 BN，由Google提出，是指对数据的归一化、规范化、正态化。BN 作为近几年最火爆的Trick之一，主流的CNN都已集成。

该方法的提出基于以下背景：

1）神经网络每层输入的分布总是发生变化，通过标准化上层输出，均衡输入数据分布，加快训练速度；

可以设置较大的学习率和衰减，而不用去care初始参数，BN总能快速收敛，调参狗的福音。

2）通过规范化输入，降低激活函数在特定输入区间达到饱和状态的概率，避免 gradient vanishing 问题；

举个例子：0.95^64 ≈ 0.0375 计算累积会产生数据偏离中心，导致误差的放大或缩小。

3）输入规范化对应样本正则化，在一定程度上可以替代 Drop Out；

Drop Out的比例也可以被无视了，全自动的节奏。

BN 的做法是在卷积池化之后，激活函数之前，对每个数据输出进行规范化（均值为 0，方差为 1）。

目标检测与识别（概述篇）

第一部分是 Batch内数据归一化（其中 E为Batch均值，Var为方差），Batch数据近似代表了整体训练数据。

第二部分是亮点，即引入附加参数 γ 和 β（Scale & Shift），Why？因为简单的归一化相当于只使用了激活函数中近似线性的部分（如下图红色虚线），破坏了原始数据的特征分布，这会降低模型表达能力。

B）High Resolution Classifier

YOLO 对应训练过程分为两步，第一步是通过 ImageNet 训练集进行高分辨率的预训练，这一步训练的是分类网络；第二步是训练检测网络，是在分类网络的基础上进行 fine tune。

之前的 YOLO v1以分辨率224*224训练分类网络，YOLO v2 将分类网络的分辨率提高到 448*448，高分辨率样本对于效果有一定的提升（文中mAp提高了约4%）。

C）New Network（新网络）

为保证后续 Anchor Boxes 讲解的连续性，这里将New Network提前。

作者对网络进行了改进：

1）不同于SSD的VGG-16网络，作者采用的基础网络是Googlenet，并且加入了自己的订制，来看数据对比：

Googlenet vs VGG-16

前向传播运算量（次） 85.2亿次 306.9亿次

精度（224*224） 88% 90%

整体来看，VGG-16整体精确度较高，但计算量过于复杂，性价比不高。

2）YOLO v2采用了常用的3 * 3卷积核，在每一次池化操作后把通道数翻倍。借鉴了network in network的思想，网络使用了全局平均池化（global average pooling）做预测，把1 * 1的卷积核置于3 * 3的卷积核之间，用来压缩特征。

YOLO v2包含19个卷积层、5个最大值池化层（max pooling layers ）。

D）Convolutional With Anchor Boxes

Faster的 Anchor 机制又一次得到印证，与SSD一样，Anchor建立了和原始坐标的对应关系：

定义了不同的Scale和宽高比，一个中心对应K个不同尺度和宽高比的Boxes。

目标检测与识别（概述篇）

YOLO v1： S*S* (B*5 + C) => 7*7（2*5+20）

其中B对应Box数量，5对应 Rect 定位+置信度。

每个Grid只能预测对应两个Box，这两个Box共用一个分类结果（20 classes），

这是很不合理的临时方案，看来作者为第二篇论文预留了改进，没想被 SSD 抢了风头。

YOLO v2： S*S*K* (5 + C) => 13*13*9（5+20）

分辨率改成了13*13，更细的格子划分对小目标适应更好，再加上与Faster一样的K=9，计算量增加了不少。

通过Anchor Box改进，mAP由69.5下降到69.2，Recall由81%提升到了88%。

SSD（-）： S*S*K*(4 + C) => 7*7*6*( 4+21 )

对应C=21，代表20种分类类别和一种背景类。

生成式对抗网络（Generative adversarial nets）

对抗网络的核心是对抗式(adversarial)，两个网络互相竞争，一个负责生成样本（Generator），另一个负责判别样本（Discriminator）。

目标检测与识别（概述篇）

生成模型像 “一个造假团伙，试图生产和使用假币”，而判别模型像 “检测假币的警察”。生成器（generator）试图欺骗判别器（discriminator），判别器则努力不被生成器欺骗。模型经过交替优化训练，两种模型都能得到提升，直到到达一个“假冒产品和真实产品无法区分”的点。

一. 使用对抗网络

大多数情况下，对抗网络作为非监督学习的代表，将无监督问题转化为有监督问题，两个方面解释：

1. 生成对抗样本

对抗样本跟生成式对抗网络没有直接的关系，所谓对抗样本，是个很有意思的事情，我们来看看论文里的例子：

目标检测与识别（概述篇）

通过添加噪声，在原样本基础上进行变换，得到的样本发生了微妙的变化，将“panda”错判成 “gibbon”。相信大家一定接触过 Data Augmentation，为什么同样是添加噪声，得到的结果却是迥然不同呢？实际上是我们在梯度方向上做了一点非常小的变化，导致模型就无法正确的分类。

2. 对抗网络

对抗样本说明了一个问题，我们训练的分类器并没有对模型进行有效描述，或者说没有学习到数据的一些内部表达或者分布，只是 “恰巧” 通过某些特定的特征完成了分类而已。

需要做的是更深层次的挖掘，比如：

a）进一步将真数据和各种各样的 Data Augmentation的样本判别为正样本；

b）进一步将各种伪造数据判别为Fake；

c）根据上一步的Fake参数，进一步提高伪造数据的逼真度；

秒客网

目标检测与识别（概述篇）

相关文章