【论文阅读】Pyramidal Convolution:Rethinking Convolutional Neural Networks for Visual Recognition

时间:2024-04-03 17:33:32

概述

本文提出了金字塔卷积(PyConv),能够在多尺度的卷积核上处理输入的图像。PyConv包含一个卷积核金字塔,每一层级是大小和深度都不同的卷积核,从而可以捕获场景中不同级别的细节,另外PyConv不会增加计算成本和参数,是十分高效的,而且PyConv十分灵活,具有可扩展性。Motivation
在现实中,有些类别的物体有着非常打的空间尺寸,而有些物体通常是很细小的。即使是同一类别的物体,在尺寸上也可能会有很大的差异。要捕捉到不同种类的物体以及它们在尺寸上的差异性,只采用单一类别的卷积核显然不足以解决如此复杂的问题。

Contributions

  • 提出了金字塔卷积,金字塔卷积包含不同大小和深度的卷积核。能够捕捉不同级别的细节信息,同时,金字塔卷积还十分高效,与标准卷积有着相似的参数数量和计算成本。同时,金字塔卷积非常灵活和可扩展,可以应用于各种网络架构来处理不同的计算机视觉任务。
  • 提出了两种用于图像分类的网络,性能卓越,并且在参数数量和计算成本方面表现优异。
  • 提出了一种语义分割的新框架,可以捕获局部的、全局的不同级别的语义信息
  • 提出了基于金字塔卷积的用于目标检测和视频分类的网络框架

Pyramidal Convolution

【论文阅读】Pyramidal Convolution:Rethinking Convolutional Neural Networks for Visual Recognition

图(a)是标准卷积,输入的特征图经过一个单一尺寸的卷积核之后得到输出特征图。
图(b)是金字塔卷积,可以看到输入的特征图会经过不同尺寸的卷积核,然后将每一个特征图按通道连接起来得到输出。卷积核的尺寸不断变大,同时卷积核的深度不断减少。
为了能够使用不同深度的卷积核,采用了分组卷积的方式,这样就能够得到同样通道数的特征图了。
【论文阅读】Pyramidal Convolution:Rethinking Convolutional Neural Networks for Visual Recognition

作者在文中论证了参数量和计算量与标准卷积近似。
advantages of the PyConv

  • Multi-scale Processing:与标准卷积相比,金字塔卷积在不增加额外计算量的情况下扩大了感受野。在采用了不同尺寸的卷积核后,可以更好地捕获多尺度的细节信息。
  • Efficiency:在标准情况下,金字塔卷积的参数量和计算量与标准卷积类似,此外,金字塔卷积支持并行计算,可以在不同的计算单元上独立执行,然后合并输出。
  • Flexibility:金字塔卷积为各种各样的网络结构打开了大门,用户可以根据实际任务*地选择金字塔卷积的层数,金字塔卷积所使用的卷积核的尺寸和深度。

PyConv Networks for Image Classification

【论文阅读】Pyramidal Convolution:Rethinking Convolutional Neural Networks for Visual Recognition

PyConv Network on Semantic Segmentation

【论文阅读】Pyramidal Convolution:Rethinking Convolutional Neural Networks for Visual Recognition