深度学习在目标检测中的应用

时间:2022-04-05 15:15:39

首先我们从CVPR2016观察一下目标检测新进展。2016年的CVPR会议目标检测的方法主要是基于卷积神经网络的框架,代表性的工作有ResNet(在faster R-CNN中将ResNet替换VGG)、YOLO(回归检测框架)、LocNet(更精准定位)、HyperNet(神经网络高层信息利于识别,底层特征利于定位,高低层特征融合)、ION(在Fast R-CNN基础上增加上下文信息)、G-CNN(减少潜在框)。
基本都是在faster R-CNN 框架下做改进,YOLO在架构上有所创新。faster R-CNN作为目前深度学习应用于目标检测的一种重要方法,一下5篇论文大致反映了自2013年RGB大神提出R-CNN(将深度学习引入目标检测问题)以来,深度学习算法在目标检测领域的一个发展历程。

R-CNN——>SPPnet——>Fast R-CNN——>faster R-CNN——>YOLO
以下对各算法提出的背景与解决的问题做出简单梳理:
1、 目标检测进展缓慢,CNN在图片分类中取得重大成功。
提出R-CNN:将检测问题转化成分类问题,应用CNN。
选择性搜索(SS)提取region proposal、CNN提取各region的特征、SVM分类、边界框(BB)回归。
2、 CNN要求输入图片尺寸固定,各proposal特征图计算不共享。
提出:SPPnet,引入SPP层解除固定尺寸约束。
3、 太多候选定位区域要被处理;这些候选取仅是粗略定位。
提出:Fast R-CNN,结合了学习分类目标候选区与改善他们空间定位的单步训练算法。(RoI池化层、将BB回归融入网络,直接使用CNN提取的特征,合并成多任务模型)
4、 随着检测时间的下降,region proposal计算成为瓶颈
提出:faster RCNN,使用RPN,与检测网络共享全图卷积特征,使得region proposal 近似无消耗。
5、 先前提出的算法都是将检测问题转化为分类解决。
提出:YOLO。将检测回归到回归方法,提高实时性能。

以上为对5篇论文发展的一个简单梳理,基本上是后一篇论文针对前一篇中存在的问题,提出解决办法,对部分内容做出改善,从而提高性能。后续再对这5篇论文作具体总结。

论文连接:
R-CNN:https://arxiv.org/pdf/1311.2524v5.pdf
SPPnet:https://arxiv.org/pdf/1406.4729v4.pdf
Fast R-CNN:https://arxiv.org/abs/1504.08083
faster R-CNN:https://arxiv.org/abs/1506.01497
YOLO: https://arxiv.org/abs/1506.02640

参考:http://sanwen8.cn/p/291742Q.html