论文阅读笔记三十四：DSSD: Deconvolutiona lSingle Shot Detector（CVPR2017）

论文源址：https://arxiv.org/abs/1701.06659

开源代码：https://github.com/MTCloudVision/mxnet-dssd

摘要

DSSD主要是向目标检测结构中增加语义信息。本文首先结合ResNet-101与SSD，然后，在此基础上添加反卷积层用于增大目标检测中的语义信息，从而提高目标物体尤其是小物体检测的准确率。本文主要研究在前向过程中添加附加单元至可学习模型中，本文主要指在前馈过程中反卷积与训练的模型输出之间的连接。

介绍

本文结构 SSD+ResNet-101+ 反卷积。近段时间，滑动窗口在目标检测任务中比较流行。与SS及R-CNN先生成候选框，然后分类器对一张图像中的候选框进行分类不同。其候选框逐渐增多，需要占用大量的资源。而滑动窗只需要有限的候选框，对于每个框除了预测类别的分数外，还有预测框的偏移量。YOLO结合全局feature map与全连接层对固定数量的区域进行预测，SSD结合网络每一层的特征，同时使用卷积核进行预测，得到更高的准确率。

效果更好的网络通过添加更多的语义信息，对小物体进行更好的检测。除了在预测时提高边界框的空间分辨率。以前版本的SSD基于VGG网络，但效果更好的网络基于ResNet-101，然而，使用更深的ResNet-101或者是添加反卷积层都无法立即生效，需要合理的将模型进行融合，进行高效的学习。

相关工作

SPPnet,Fast R-CNN，Faster R-CNN，R-FCN 及YOLO使用的都是网络前端的特征对不同尺寸的目标进行检测。而单层特征模型所有可能的目标尺寸及形状压力优点大。

有许多利用卷积网络中的多层特征来提高检测的准确率。ION使用L2正则化结合VGG中的多层特征用于目标框的生成。HyperNet也采用相似的方法，利用不同层的特征然后对特征进行pool操作，由于结合的特征包含输入图片中不同层次的信息。而池化后的特征更适合定位及分类。但是特征结合增加了内存，同时降低了模型的速度。

另一类包括利用卷积网络中的不同层来预测不同尺寸大小的目标。由于不同层中存在不同的感受野。因此，使用较大感受野的层预测大物体，使用较小的感受野对小物体进行预测。SSD将不同尺寸的默认框推广到卷积网络中的不同曾。并且强制每一层关注预测目标的特定尺寸。MS-CNN在多层卷积层中应用反卷积操作来增大feature map的分辨率。为了检测较小尺寸的物体，需要结合较低网络层的信息同时，feature map要较密集。但由于网络的低层缺少足够多的语义信息，因此对物体的分类存在不良影响。通过使用反卷积及跳跃结构，可以在密集的feature map中加入更多的语义信息，利于小目标物体的检测。

有部分工作主要在于结合上下文信息进行预测。Multi-Region CNN不仅从region proposals中池化特征。而且对预定义的区域（中心，边界等上下文区域）进行池化操作。借鉴现存的分割和姿态估计，使用编码-解码结构在预测前传递上下文信息。反卷积不仅解决了卷积网络中feature map分辨率的缩减，同时增加了预测的上下文信息。

Deconvolutional Single Shot Detection (DSSD) model

本文首先回顾SSD的结构，然后分析基于ResNet-101的SSD提高了训练效率。接下来，介绍如何增加反卷积层实现沙漏形状的网络，最后将反卷积与模型进行融合传递分割信息。

SSD

SSD在基础网络的顶部开始建立，以几层卷积层结束。如图1，SSD增加了一个小型卷积层。增加的层及先前的几层用于预测框的偏移及分数。预测通过3x3xchannels的卷积核进行预测，一个用于获得类别分数，另一个用于边界框的回归。使用NMS处理结果用于得到最终的检测结果。