文章《A Comparison of Super-Resolution and Nearest Neighbors Interpolation Applied to Object Detection on Satellite Data》
原文链接:https://arxiv.org/abs/1907.05283
一、简介
随着机器视觉和深度卷积神经网络(CNNs)被应用于新的问题和数据,网络架构的进步和这些网络的应用都得到了快速的发展。然而,在大多数分类和目标检测应用中,图像数据是这样的,感兴趣的对象相对于场景来说是很大的。这可以在最流行的公共基准数据集ImageNet、VOC、COCO和CIFAR中观察到。这些数据集和它们对应的挑战赛继续推进网络架构比如SqueezeNets, Squeeze-and-Excitation Networks, 和 Faster R-CNN。对于DigitalGlobe的WorldView-3卫星将每个像素表示为30平方厘米的区域的卫星数据。在这些场景中,在大于3000x3000的场景中像汽车这样的物体通常是13x7像素或更小。这些大型场景需要预处理,以便在现代目标检测网络中使用,包括将原始场景切割成更小的组件用于训练和验证。除此之外,在停车场和繁忙的道路等区域,车辆等物体往往位于较近的位置,这使得车辆之间的边界在卫星图像中难以感知。缺乏公共可用的标记数据也阻碍了对这个应用程序空间的探索,只有xView Challenge数据集拥有卫星捕获的带有标记对象的图像。等空中数据集分类细粒度特性在空中图像(COFGA),大规模数据集在空中图像(队伍),对象检测和汽车开销与上下文(COWC)也有类似的对象类,但存在一个较低的地面样本距离(德牧)使他们更容易获得良好的对象检测结果,但限制了实际应用。考虑到将CNNs应用于卫星数据所面临的挑战,将升级作为预处理步骤对实现准确探测目标的良好性能至关重要。深度学习的进步导致了许多先进的体系结构可以执行升级,在低分辨率图像上训练网络,并与高分辨率副本进行对比验证。尽管关于这一主题的文献越来越多,但超分辨率(SR)在目标检测和分类问题上的应用在很大程度上还没有得到探索,SR与最近邻(NN)插值等也没有文献记载。SR网络作为卫星图像中目标检测的预处理步骤,具有良好的应用前景,但由于其深度网络包含数百万个必须正确训练的参数,因此增加了大量的计算成本。与SR不同的是,NN仍然是最基本的向上缩放方法之一,它通过取相邻像素并假设其值来执行插值,从而创建分段阶跃函数逼近,且计算成本很小。
本文通过研究SR和NN在训练和验证一个应用于卫星图像的目标检测网络时的上升率,旨在确定应用驱动SR的好处,从而定量比较SR和应用于目标检测任务的基本插值方法。为了实现这一目标,提出了一种新的多级管道,将WorldView-3卫星图像进行平铺、高档次平铺,并进一步将平铺后的泛锐图像细化为分辨率增强的组件。大集群的小对象将经过超分辨率数据训练的模型与经过原生分辨率图像训练的模型进行了比较,将神经网络放大2倍,将神经网络放大4倍。通过这样做,能够评估SR在真实机器视觉应用程序中的价值,以及它是否显示出足够的好处,以超过与多个深度学习体系结构共存的平台相关的巨大计算成本。
二、超分与目标检测结合的相关工作
与传统的神经网络或双三次插值方法相比,SR网络具有显著的图像高维化能力,为人类提供了更好的视觉感知能力。这些网络对低分辨率图像进行训练,以学习一个参数空间,以便能够近似出与高分辨率图像高度匹配的图像的放大版本。超分辨率生成对抗网络(SRGAN)、增强深超分辨率(EDSR)、深后向投影网络(DBPN)、超分辨率DenseNets、深拉普拉斯金字塔网络(DLPN)等多种SR网络均存在。虽然每个网络都有不同的体系结构,但所有这些网络都在尝试解决常见SR数据集(如Set14、B100和DIV2K)上的单图像超分辨率问题。SR中的许多研究都集中在比较不同的SR体系结构上,通常使用图像信噪比(PSNR)度量来评估体系结构能够在多大程度上从低分辨率图像重构出真正的高分辨率图像。由于这个原因,这些网络很少基于计算成本进行评估,尽管Shi等人的工作试图使用亚像素CNN架构实现SR的近实时升级。老的应用研究作为目标检测和分类的预处理阶段研究要少得多,尽管最初的研究表明,使用老作为预处理步骤可以产生显著改善小物体的检测和分类在较大的图像和检测对象在本地解析。超分辨率已被证明既能提高图像的视觉效果,又能提高目标检测器的性能。Bosch研究了头顶图像的SR,该图像在飞机的低分辨率图像上显示出明显改善的结果。本文对多个SR网络的PSNR进行了比较,给出了开销图像域的比较。虽然SR增强图像在视觉上很吸引人,但是本文并没有将输出的超分辨率图像应用到任何应用程序中。然而,PSNR并不一定反映机器视觉任务(如图像分类或目标检测)应用程序的改进。Haris通过将SR网络连接到目标检测器的损耗函数并优化SR网络以最小化目标检测损耗来证明这一点。在此过程中,Haris证明了最佳的目标检测性能发生在一个比最大可达到的PSNR更低的PSNR。在确定SR在目标检测中的效用时,Shermeyer和Etten在xView卫星图像数据集上模拟了各种GSDs,并应用SR体系结构来比较不同分辨率和模型下的目标检测性能。本研究是首个将目标检测与卫星图像上的遥感联系起来的研究,并证明遥感在车辆和船只等小型目标的目标检测方面具有显著的增强作用。Ferdous将SR和SSD对象检测模型应用到VEDAI航空数据集上的车辆检测任务中,对此表示赞同。虽然这两项研究都表明SR对目标检测有改善作用,但它们也忽略了比较单纯的上采样方法(如NN或双三次插值)对目标检测性能的影响。Shermeyer and Etten在xView卫星数据集上模拟了各种各样GSDs,并且应用到SR结构中通过一系列的模型和分辨率来比较性能。
三、目标检测和超分模型
许多方法存在 SR,本文利用EDSR(MultiScale Deep Super-Resolution)。MDSR网络是执行执行2倍,3倍和4倍的上采样模型。该方法结合了剩余学习技术和一种增加网络宽度和降低深度的方法。
从上图可以看出,MDSR产生了一个比NN插值方法更美观的视觉效果。这表明,MDSR网络成功地生产了一个高档,具有更好的PSNR比NN。利用预先训练好的MDSR权值,这些权值的PSNR与使用从原始xView数据集中抽取的低分辨率图像进行完全训练的MDSR网络的PSNR相当。
我们在两个Nvidia Titan Xp图形卡上训练YOLOv2模型,批量大小为32,细分大小为8。我们使用0.00025的学习率和0.9的动量。用官方的Darknet-10预训练的卷积权重来预训练我们的模型,并且用ImageNet来初始化我们的模型,增加了数据来随机调整色调、饱和度和曝光率,使模型对颜色和光照的变化具有鲁棒性。训练中还采用了随机平移、缩放和抖动等方法,提高了模型的鲁棒性。使用一个单一的Nvidia Titan Xpfor对训练后的模型进行目标检测和性能评估。为了获得平均精度指标,使用IOU阈值0.5,并扫描边界框的置信阈值,以获得从0.01到0.9的所有置信评分的精度和召回率。
为了获得较好的卫星图像处理性能,提出了一种结合图像平铺和缩放的多级预处理流程。xView数据集中的图像非常大,每个图像的大小大约为4000x3000。假设YOLOv2网络将所有输入图像的大小调整为416x416,以确保13x13输出特征映射,则必须将原始xView图像平铺成更小的图像,以保留对象。如果没有这个步骤,像车辆这样的非常小的物体将被调整到小于4x4的大小。我们的目标检测流程对卫星图像进行了调整,执行了两个平铺阶段和一个升级步骤。对于xView数据集中的每个图像,从图像中连续切割208x208个片段,每个片段之间的重叠为50个像素。这些被送入一个升级阶段,它将每个片段放大4倍,产生一个832x832的切割。然后,将这些放大后的图像应用到第二阶段的片段中,该阶段使用416x416个重叠像素为50的切面。平铺方案连续的平铺砖从上到下,直到达到图像的边缘,这时平铺砖返回到图像的顶部并向右移动。这将导致图像边缘出现明显的重叠,不过对于大型场景,这种重叠并不明显。在第二个平铺阶段,这种显著的重叠成为性能的一个额外优势,因为它允许YOLOv2有第二次机会检测场景中的对象,通常可以正确地检测在一个重叠平铺中丢失的对象。然后将检测结果拼接在一起,返回相对于原始场景的包围框位置。整个检测的流程如下图所示,
为了消除重叠平铺场景中出现的重叠边界框,我们使用了面积上的交集(IOA)度量。
边界框是根据YOLOv2的置信度评分排序的,然后与它附近的其他框进行比较。设置阈值,这样,如果一个框与另一个框重叠,其截面积大于边界框面积的75%,则删除置信度较低的框。使用IOA度量不同于许多标准方法要求Intersection-Over-Union(IOU),正如我们所发现,借据不执行一个适当的阈值以及IOA合并重复的边框,同时保留对象的边界框位于近,如卡车,尤其是当这些对象定位在一个角度。
四、实验结果
通过比较xView数据集中车辆的目标检测结果,可以看出平铺和缩放对于提高卫星图像上的模型性能有着重要的作用。如下所示给出地性能表格和PR曲线,将NN插值因子提高2,与不进行缩放的平铺图像相比,AP提高了3.4%。平铺的图像使用我们提出的流程和4倍的升级,结合多级平铺,与本地图像GSD相比,性能提高了22.8%,达到0.683AP。
MDSR和NN升级方法有几乎没有任何区别,NNx4优于MDSRx4 0.02%个AP。观察Precition-Recall曲线,表明对象探测器不是从SR处理图像中提取特色,并没有出现在NNx4图像中。
鉴于YOLOv2模型使用ImageNet上pretrained的权重,然后用xView进行微调,我们怀疑,使用MDSR和NN对对象进行升级所带来的好处,很大程度上是因为这些对象在场景大小方面与ImageNet对象更匹配。因此,使用了向上缩放来辅助从训练前学习的特征提取过程。由于这些特征在卫星场景中是有限的,网络很可能是根据这些小对象中有限的几何形状推断出这些特征,而不是通过先进的升级方法(如MDSR)带来的任何独特特征。
本文所提的目标检测流程在低密度的场景下非常好,这适用于MDSRx4和NNx4上采样场景。在拥挤的场景中,例如道路、高速公路和停车场,本文的检测流程表现良好,但是由于车辆集群之间的边界变得难以感知,因此性能有所下降。对于YOLO对象检测体系结构来说,密集的小对象集群是一个挑战,本文提出的网络能克服YOLO的缺点,并且保持高精度和快的推断速度,当把YOLO应用到真实场景中这是个提升。