来源：阿里云栖社区

https://yq.aliyun.com/articles/74892

更多深度文章，请关注：https://yq.aliyun.com/cloud

作者信息

Adrian Colyer：morning paper编辑、Accel Partners投资合伙人、SpringSource首席技术官、VMware技术总监。

领英：http://www.linkedin.com/in/adriancolyer/

Twitter：https://twitter.com/adriancolyer

这篇文章介绍“ top100深度学习论文”列表中卷积神经网络的第二部分，PartⅠ的内容可以在此查看。本篇主要介绍以下几篇论文：

Return of the devil in the details: delving deep into convolutional nets,Chatfield,2014.
Spatial pyramid pooling in deep convolutional networks for visual recognition,He,2014.
Very deep convolutional networks for largescale image recognition,Simonyan

&Zisserman,2014.

Going deeper with convolutions,Szegedy,2015.

回归细节的魔鬼：深入卷积网络

这篇论文是一个非常好的研究，CNN已经在图像识别任务中打败了手工提取特征，但是由于所有这些不是基于相同条件下进行的比较，所以很难分辨出真正占据差异的因素。Chatfield等人研究了IFV（改进的费舍尔向量）的浅层表示，三种基于CNN的不同深层表示，以及对目标数据集进行预训练和微调的深层表征。对于所有的研究，使用相同的任务（PASCAL VOC分类），三种不同的CNN表示分别为基于Krizhevksy的架构CNN-F（Fast）、使用减小的步长和较小的第1层卷积层的感知野的CNN-M（Medium）以及基于OverFeat的“准确”网络的CNN-S（Slow）。
主要发现：

增强将IFV和CNN的性能提高了约3%。翻转只能起到略微的作用，但翻转结合裁剪效果却很好。IFV和CNN都受到颜色信息的添加或减少的影响，将图像转换为灰度后重新训练CNN，会导致3%的性能下降。
基于CNN的方法仍然优于浅层编码等方法10%的性能。
CNNM和CNNS均优于CNNFast 23%的性能；CNNM比CNNS快25%。
再次训练CNN，最后一层较低的维数导致了边缘性能的提升。
微调导致结果有显著差异，提高约2.7%。

论文提出了一种基于CNN的图像分类方法的严格的经验评估，以及与传统的浅层特征编码方法的比较。结果表明，让数据增加可以显著提高浅层表示的性能。尽管有了这样的改进，但深层次架构的性能仍然大大超过了浅层的方法。结果表明，在ILSVRC数据集上的深层表现是其他数据集的性能一个很好的指标，另外使用深层表示和线性SVM的组合的微调可以进一步提高已实现的好结果。

基于空间金字塔池的深层卷积网络的视觉识别
到目前为止，CNN的架构一般为一系列的卷积层，之后是全连接层以及N路softmax输出，这种架构造成其只能处理固定大小的图像。但卷积层中使用的滑动窗实际上可以处理任何图像尺寸，只是由于全连接层具有固定尺寸的输入限制了尺寸，导致效果远远不理想。
空间金字塔池（SPP）在卷积层和全连接层之间增加了一个新的层，新层的任务是将任何大小的输入映射到固定大小的输出。空间金字塔池化的思想早已存在于计算机视觉中，但并没有被应用于CNN。

SPP通过将最后一层卷积层输出的特征图划分成尺寸与图像大小成正比的多个空间箱，因此无论图像大小如何，空间箱的数量都会被固定。空间箱以不同的间隔尺寸被捕获，在每个空间箱中，每个过滤器的响应使用最大池。