1.论文介绍
Wavelet Convolutions for Large Receptive Fields
大感受野的小波卷积
2024 EECV
Paper Code
2.摘要
近年来,人们试图通过增加卷积神经网络(ConvolutionalNeuralNets,CNNs)的核尺寸来模拟视觉变换器(VisionTransformers,ViTs)的自我注意块的全局感受野。然而,这种方法很快就达到了上限和饱和,在实现了一个全局感受野之前。本文证明,通过利用小波变换(WT),有可能获得非常大的感受野,而不遭受过度参数化,例如,对于k × k的感受野,所提出的方法中的可训练参数的数目仅随k的对数增长。所提出的WTConv层可作为现有架构中的插入式替代品,产生有效的多频响应,并随着感受野的大小而适度地缩放。
Keywords: 全局感受野、小波变换、多频率
引入WTConv层:提出了一种新的卷积层WTConv,通过结合小波变换扩展感受野,使CNN能够在不显著增加参数的情况下获得接近全局的感受野。
多频率响应:WTConv层利用小波分解将输入分成不同频带,允许卷积层在低频和高频分量上分别进行处理,增强了模型对低频成分(即形状特征)的响应。
低参数增长率:与传统方法中卷积核尺寸增大导致参数和计算量指数级增长不同,WTConv实现了参数的对数增长,使得在大感受野的情况下保持参数效率。
即插即用性:WTConv被设计为可以直接替换现有CNN中的深度卷积操作,无需对架构进行额外修改,具有广泛适用性。
3.Introduction
在过去的十年中,卷积神经网络(CNNs)在很大程度上主导了计算机视觉的许多领域。尽管如此,随着视觉转换器(Vision Transformers,ViT)的出现,CNN面临着激烈的竞争。视觉转换器是对自然语言处理中使用的Transformer架构的改编。具体地说,人们现在认为,ViT优于CNN的优势主要归因于它们的多头自注意层。该层便于特征的全局混合,这与通过构造而被限制为特征的局部混合的卷积形成对比。因此,最近的几项工作试图弥合CNNs和ViT之间的性能差距。Liu等人重新构建了ResNet架构及其训练例程,以跟上Swin Transformer的步伐。还有一个改进是增加卷积的核大小。然而,根据经验,该方法在内核大小为7×7时达到饱和,这意味着进一步增加内核并没有帮助,甚至在某个时候开始恶化性能。虽然单纯地将大小增加到7 × 7以上是没有用的,但Ding等人已经表明,如果构造得更好,甚至可以从更大的核中得到。尽管如此,最终内核变得过度参数化,并且性能在到达全局感受域之前就饱和了。在[11]中分析的一个有趣的特性是,使用较大的核使得CNN更偏向于形状,这意味着它们捕获图像中的低频的能力得到了提高。这一发现有些令人惊讶,因为卷积层通常倾向于对输入中的高频做出响应。这与注意力头不同,注意力头更倾向于低频,如其他研究所示。上面的讨论提出了一个很自然的问题:我们能不能利用信号处理工具来有效地增加卷积的感受域,而不遭受过度参数化的影响?换句话说,我们是否可以使用非常大的过滤器-例如,全局的感受野–同时还能改善性能?本文对这一问题给出了肯定的回答。我们提出的方法利用了小波变换(WT),一种基于时频分析的成熟工具,使卷积的感受域很好地按比例放大,并通过级联,引导CNNs更好地响应低频。在某种程度上,我们将解决方案基于WT的动机在于(不同于傅里叶变换),它保留了一些空间分辨率。这使得空间操作(例如,卷积)更有意义。
更具体地说,本文提出了WTConv,这是一个使用级联WT分解并执行一组小核卷积的层,每个卷积集中在越来越大的感受野中的输入的不同频带上。该过程允许在输入中更加强调低频,同时仅添加少量可训练参数。事实上,对于一个k × k的感受野,可训练参数的数量只随k的对数增长。总结一下,本文的主要贡献是:-一个新的层,称为WTConv,它使用WT来有效地增加卷积的感受域。- WTConv被设计为给定的CNN内的插入式替换(用于深度卷积)。
4.方法详解
作为卷积的小波变换
在这项工作中,本文采用Haar WT,因为它高效和简单。然而,本文的方法并不局限于它,因为可以使用其他小波基,尽管计算成本增加。
给定一个图像X,在一个空间维度(宽度或高度)上的一维Haar WT通过与核[1,1]/ √ 2和[1,−1]/ √ 2的深度卷积给出,随后是因子为2的标准下采样算子。
一维WT是在一个维度上处理,是深度卷积与下采样的结合。
为了执行2D Haar WT,我们在两个维度上组合操作,使用以下四个滤波器的集合产生步长为2的深度卷积:
注意,fLL是低通滤波器,fLH(水平高频)、fHL(垂直高频)、fHH(对角高频)是一组高通滤波器。对于每个输入通道,卷积的输出:
有四个通道,每个通道(在每个空间维度上)的分辨率是X的一半。XLL是X的低频分量,而XLH、XHL、XHH是其水平、垂直和对角高频分量。由于等式最上面中的核1形成正交基,应用逆小波变换(IWT)通过转置卷积获得:
然后通过递归分解低频分量给出级联小波分解。分解的每一级由下式给出:
其中X(0)LL = X,i是当前层级。这导致了对于较低频率,频率分辨率增加和空间分辨率减小。
级联小波分解的过程是:每次分解后,只对低频分量(即 LL 分量)进行进一步的小波分解,而不是对四个分量都进行分解。因此,级联小波分解的层次结构会随着每次分解产生新的 LL、LH、HL 和 HH 分量,但这些新分量只来自于上一次分解的 LL 部分。
小波域中的卷积
增加卷积层的核大小会二次增加参数的数量(因此,*度也会增加)。为了缓解这种情况:首先,使用WT对输入的低频和高频成分进行滤波和降频。然后,在使用IWT构造输出之前,对不同的频率图执行小核深度卷积。换句话说,该过程由下式给出:
其中X是输入张量,W是具有四倍于X的输入通道的k×k深度核的权重张量。该运算不仅分离了频率分量之间的卷积,而且允许更小的核在原始输入的更大区域中操作,即增加其接受场w.r.t。输入。
将每个频率分量(即小波分解得到的四个频率分量)分别使用一个小卷积核(k × k)进行卷积操作。这里使用的是深度卷积,即在通道维度上逐个卷积。
我们采用该1级组合操作,并通过使用来自等式(1)的相同级联原理进一步增加它。该过程由下式给出:
其中X(0)LL是层的输入,X(i)H表示第i层的所有三个高频图。为了将不同频率的输出联合收割机组合,我们使用WT及其逆是线性运算的事实,这意味着IWT(X + Y)= IWT(X)+ IWT(Y)。因此,执行
由于小波变换(WT)和逆变换(IWT)都是线性操作,利用线性叠加的性质可以直接进行叠加
导致不同级别的卷积的总和,其中Z(i)是从级别i向前的聚合输出。其中不同大小卷积的两个输出被求和作为输出。我们不能对Y(i)LL、Y(i)H中的每一个进行归一化,因为它们的单独归一化不对应于原始域中的归一化。相反,我们发现,仅执行通道式缩放来加权每个频率分量的贡献就足够了。图3显示了2级WT情况下的WTConv。
首先输入一个input,然后进行WT得到四个分量,再对低频分量再进行WT,直至最后一层。对于每一层,先把四个分量经过深度卷积变换,再cat到一起经过IWT得到该层的结果,再把下一层的低频分量与之相加(最后一层的下一层是0),传回上一层,直至第一层。第一层是input经过卷积,与下一层相加得到输出结果。
使用小波变换的优势:
将WTConv合并到给定的CNN中有两个主要的技术优势。首先,每一级WT都增加了层的感受野的大小,而可训练参数的数量只有少量增加。也就是说,WT的第三级级联频率分解,以及每个级的固定大小的核k,允许参数的数量在级别的数量(k· 4 · c · k2)中线性缩放,而感受野以指数方式增长(2 k· k)。
第二个好处是,WTConv层的构造可以比标准卷积更好地捕获低频。
5.结果与总结
语义分割:
分类:
我的理解是本文构建了一个基于小波变换的卷积块,可以代替深度卷积使用。因为小波变换不同于傅里叶变换,它包含空间域与频域的信息。做法是首先选定Haar WT作基底,2D变换每次都会分成低频、水平高频、垂直高频、对角高频四个分量;后续还会级联操作,对得到的四个分量中的低频分量会再次进行小波变换,得到更低一级的四个分量。逆变换时,首先会对它们先进行卷积操作(深度卷积),然后低频分量与低一级的四个分量相加,再把这一级的四个分量作逆小波变换。