paper 111：图像分类物体目标检测 from RCNN to YOLO

参考列表

Selective Search for Object Recognition
Selective Search for Object Recognition(菜菜鸟小Q的专栏)
Selective Search for Object Recognition(Surge)
Selective Search for Object Recognition(原始论文)
Efficient Graph-Based Image Segmentation(快速图像分割)
Homepage of Koen van de Sande

非极大值抑制（Non-maximum suppression）在物体检测领域的应用
 Efficient Non Maximum Suppression 笔记（不完整版）

如何评价rcnn、fast-rcnn和faster-rcnn这一系列方法？
RCNN的安装与简单使用

Ross B. Girshick(RCNN系列开创者)
rbg’s home page

RCNN
Rich feature hierarchies for accurate object detection and semantic segmentation
https://github.com/rbgirshick/rcnn

Fast RCNN
Fast R-CNN
https://github.com/rbgirshick/fast-rcnn

Faster RCNN
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
https://github.com/rbgirshick/py-faster-rcnn
https://github.com/ShaoqingRen/faster_rcnn

You Only Look Once
You Only Look Once: Unified, Real-Time Object Detection
YOLO Object Detection(视频)

RCNN

最早的物体识别，是通过窗口扫描的方式进行，并且需要对图片进行几个级别的缩放来重复进行。
这种方式非常暴力，计算量大。
RCNN主要解决的是去掉窗口扫描，用聚类方式，对图像进行分割分组，得到多个侯选框的层次组。
分割分组方法有很多，RCNN用到的是Selective Search。

以下就是RCNN的结构。

paper 111：图像分类物体目标检测 from RCNN to YOLO

从原始图片，通过Selective Search提取出区域候选框，有2000个左右
把所有侯选框缩放成固定大小
然后通过CNN网络，提取特征
再添加两个全链接层，然后再用SVM分类，回归来微调选框位置与大小

Fast RCNN

RCNN有两千个左右的候选框，都要进行CNN操作。但候选框有大量重叠，造成重复计算。
Fast RCNN就是解决这个问题的。

paper 111：图像分类物体目标检测 from RCNN to YOLO

利用CNN(卷积神经网络)，得到整个原始图片的特征层
在原始图片上通过Selective Search等方法，提取出域候选框
把候选框投影到最后的特征层，并进行Max-Pooling采样，得到固定大小的特征矩形
然后再通过两个全连接层，分别用softmax分类，regressor进行选框位置与大小微调

Faster RCNN

在上面的 RCNN 与 Fast RCNN中，相对于在GPU上计算的CNN，在CPU上运行的提取候选框效率低下，一张图片大概需要2秒。
Faster RCNN则直接利用CNN来计算候选框，方式如下:

paper 111：图像分类物体目标检测 from RCNN to YOLO

原始图片经过CNN，得到最后的卷积特征
利用3×3的矩形进行扫描，得到256维的向量(相当于再添加了一个卷积层，卷积核为3×3，输出特征数为256)
3×3的特征层映射到最初图片，是一块比较大的固定区域，在此固定区域上进行长宽变形，比如分别3个缩放级别，则一共有9个不同的矩形区域，称做anchor box。9就是上图中的k值。
对上图中的k个anchor box进行是否是物体判断预测，和矩形框位置与大小微调
选出物体框后，再利用同Fast RCNN同样的方式，对物体类别进行判断
选框与分类使用同样的CNN网络

一张1000×600的图片，大概可以得到20k个anchor box(60×40×9)。
anchor box的设置应比较好的覆盖从大到小的区域，如下图:

paper 111：图像分类物体目标检测 from RCNN to YOLO

注
这里有一点疑惑，3×3的卷积核对应的原始图是块固定区域(感受野)，并没有包含区域外的信息，如何做到预测更大区域的物体位置？
或者类似于人的感知，比如只看到部分人像，推测整个人像的大小？看到老虎的头，预测整个老虎的位置与大小？

You Only Look Once

Faster RCNN需要对20k个anchor box进行判断是否是物体，然后再进行物体识别，分成了两步。
YOLO(You Only Look Once)则把物体框的选择与识别进行了结合，一步输出，即变成”You Only Look Once”。
所以识别速度非常快，达到每秒45帧，而在快速版YOLO(Fast YOLO，卷积层更少)中，可以达到每秒155帧。
网络的整体结构如下图:

paper 111：图像分类物体目标检测 from RCNN to YOLO

把原始图片缩放成448×448大小
运行单个卷积网络
得到物体的位置与类别

模型如下:

paper 111：图像分类物体目标检测 from RCNN to YOLO

把缩放成统一大小的图片分割成S×S的单元格
每一个单元格负责输出B个矩形框，每一个框带四个位置信息(x, y, w, h)，与一个该框是物体的概率，用Pr(Object)或者C(Confidence)表示
每一个单元格再负责输出C个类别的概率，用Pr(Class∣Object)表示
最终输出层应有S×S×(B∗5+C)个单元