ECCV2020超分辨率篇
ECCV的全称是European Conference on Computer Vision(欧洲计算机视觉国际会议) ,是计算机视觉三大*会议(另外两个是ICCV]和CVPR)之一,两年一次在欧洲召开。
ECCV2020超分方向有24篇,涉及图像超分辨率的有8篇,本文只介绍其中的6篇,还有一篇是研究图像放大但也涉及图像超分方向(Invertible Image Rescaling),其超分上的结果提升特别大,因此一并介绍。
相关笔记:
文章目录
1. Invertible Image Rescaling
Invertible Image Rescaling,paper,code
可逆图像缩放:以图像信号为例,探讨了图像的压缩或缩放后的还原问题,完美恢复降采样后的高清图片。
问题描述:
高分辨率数字图像通常会按比例缩小以适应各种显示屏或者节省存储成本和带宽,同时采用后放大方法恢复原始的分辨率或放大图像中的细节。但是,由于高频信息的丢失,典型的图像分辨率缩小是一种非注入式映射,这导致逆放大过程的不适定问题。作者提出一种可逆的缩放网络(Invertible Rescaling Net, IRN),从新的角度(可逆双射变换)建模降尺度和升尺度过程来大大缓解图像升尺度的不适定问题。
IRN是一种对损失信息进行建模,实现信号处理高保真还原方法。与图像超分不同,它研究的是图像放大的问题,在一开始,原始真实高清图像HR就是可获得的,但是为了存储/传输低清LR图像,又必须舍弃HR。然后,我们希望可以通过LR图像恢复出HR图像。但对于超分辨率,HR从一开始就是不可获得的,我们希望给定一个LR图像然后生成一个新的HR图像。
根据Nyquist-Shannon采样定理,在缩小HR图像的过程中丢失的信息等于高频内容。如图,作者首先采用小波变换将HR分解为低频分量和高频分量,分别表示为 x L x_L xL 和 x H x_H xH。 x L x_L xL 对应低频分量A, x H x_H xH 对应三个不同方向的高频分量H(水平)、V(垂直)、D(对角)。这里的低频分量与双线性插值降采样得到的低分辨率结果是一样的,而高频分量则是在降采样过程中被丢失的信息。
正向缩减过程中,HR被分解为 x L x_L xL 和 x H x_H xH,通过可逆网络可生成可逆函数 f θ ( ⋅ ) f_{\theta}(·) fθ(⋅) 。 f θ ( ⋅ ) f_{\theta}(·) fθ(⋅) 可用视觉上还不错的LR图像 y y y 和与样本无关的潜在变量 z z z 表示。
逆放大过程中,通过逆函数 f θ − 1 ( ⋅ ) f_{\theta}^{-1}(·) fθ−1(⋅) 将 y y y 与 z z z 的随机组合转化为HR图像。
网络架构:
所提的IRN的总体架构由堆叠的缩减模块组成,每个模块都包含一个Haar变换模块和几个可逆神经网络模块(InvBlocks),每个缩减模块将空间分辨率降低2倍。
Haar Transformation:即小波变换,输入Size=(H, W, C),输出Size=(H/2, W/2, 4C),输入HR的低频信息和高频信息被有效地分离并且将被馈送到随后的InvBlock中。
InvBlock:以Haar变换后的特征图为输入,使用InvBlocks的堆叠进一步抽象LR和潜在表示。采用 Density estimation using Real NVP 中的通用耦合层,如图:
图源自 Density estimation using Real NVP
HR Reconstruction:模型可以通过最终学习到LR图像 y y y 和与样本无关的分布 z z z,对分布 z z z 随机抽取,就可以重建HR图像,构成一个HR → \rightarrow → ( y , z y, z y,z) → \rightarrow → HR的可逆缩放网络。这一可逆过程如图所示:
图源自 Density estimation using Real NVP
损失函数:采用HR重建损失,LR指导损失和分布匹配损失的加权和。
HR重建损失:衡量原始HR和重建HR的差异
LR指导损失:衡量原始LR和生成的LR图像 y y y 的差异
分布匹配损失:衡量原始HR的分布和重建HR分布的差异
结果对比:
提升非常高!可视化效果也很赞,很好地恢复了较细地纹理结构(高频细节):
IRN+:在IRN基础上加入感知损失
2. CDC: Component Divide-and-Conquer
Component Divide-and-Conquer for Real-World Image Super-Resolution,paper,code
组件分而治之:构建三个分别与平面,边缘和角相关联的组件注意力块实现真实世界的图像超分辨率。
问题描述:
1.传统的超分方法LR图像是通过简单的下采样方法(如双三次)获得,这种退化通常会偏离真实的退化,模型在实际情况中泛化能力不强。
2.逐像素损失(如MSE)导致模型过拟合或趋向于易于重建的区域。
直观地,SR的目标随具有不同低级图像元素的LR区域而变化,例如,平坦区域的平滑度保持不变,边缘锐化,纹理的细节增强。考虑到平坦区域和边缘是图像中最常见的,按均质像素损失学习的模型倾向于处理平坦区域和边缘,但通常无法推断出复杂纹理的真实细节。
作者通过分析EDSR中L1损失的三个分量(平面、边缘和对角)比例,并评估它们对SR重建的影响。观察到这三个分量具有不同的重建难度:平滑区域和边缘的损失较小,而拐角点的损失很大。角具有至关重要的方向提示,这些方向提示可以控制边缘或纹理的形状或外观,可能有利于图像重建。因此,探索这三个分量以促进SR模型训练不受各种退化过程的限制。
受到三个分量对重建影响的启发,作者建立了一个大型的、多样的真实世界SR基准数据集DRealSR,并提出了一个组件分而治之模型(CDC)以应对现实中的SR挑战。
具体来说,作者首先基于堆叠的沙漏网络开发一个名为HGSR(Hourglass Super network)的基本模型。 HGSR通过在所有尺度上重复进行自下而上和自上而下的推理来学习多尺度特征。通过HGSR,CDC(Component Divide-and-Conquer)可以构建三个分别与平面,边缘和角相关联的组件注意力块(Component-Attentive Block,CAB)。每个CAB都致力于通过中间监督(Intermediate Supervision, IS)策略来学习三个低级组件之一。 CDC仅在训练阶段从HR图像中提取平坦区域,边缘和角,然后将它们分别合并到带有CAB的三个不同分支中。这三个CAB形成了一个渐进的范式,并进行汇总以生成最终的SR重建。考虑到不同的图像区域在各个方向上传递的梯度不同,提出了一种梯度加权(Gradient-Weighted, GW)损失函数用于SR重建。一个区域越复杂,对其损失函数的影响就越大。GW损失,就像用于训练目标检测器的Focal Loss一样,根据不同的图像重建难度来适应模型训练。
HG模块如Fig.3(a)
Fig.3(b) 为HGSR模块
Fig.3(c)为CDC模块
RB:Residual Block
RB:Residual Inception Block
HG模块可以捕获每个尺度的信息,具有出色的关键点检测性能。它的沙漏模块可以看作是具有跳过连接的编码器/解码器,以保留每种分辨率的空间信息,并将它们组合在一起以预测像素的输出。HG模块首先通过卷积层,然后通过最大池化层。在自上而下推理期间,将不断重复此过程直到最低分辨率。然后自下而上通过最近邻插值进行不断的上采样,并通过跳过连接跨尺度组合特征,直到恢复原始分辨率为止。
HG将中间预测递归加入下一个HG模块,而HGSR和CDC使用中间监督(Intermediate Supervision, IS)策略进行模型学习,避免了递归操作,从而避免递归操作在骨干特征学习中引起的较大干扰。HGSR损失函数为 L i s \mathcal{L}_{is} Lis 和 L 1 \mathcal{L}_1 L1。
CDC结构:
网络的总损失为:
L
=
1
N
∑
i
=
1
N
[
L
r
e
c
(
x
^
i
,
x
i
)
+
∑
e
=
1
3
L
i
s
(
x
~
i
e
,
x
i
)
]
\mathcal{L} = \frac{1}{N} \sum_{i=1}^{N}[\mathcal{L}_{rec}(\hat{x}_i, x_i) + \sum_{e=1}^{3}\mathcal{L}_{is}(\tilde{x}_i^e, x_i)]
L=N1i=1∑N[Lrec(x^i,xi)+e=1∑3Lis(x~ie,xi)]
L r e c \mathcal{L}_{rec} Lrec 表示重建损失
e e e 表示CAB块的索引
x ~ i e \tilde{x}_i^e x~ie 表示中间SR预测结果(以下用 x ~ e \tilde{x}_e x~e 表示)
CDC模型以HGSR为骨架。CDC关注于平面、边缘和角三个图像分量,而不是边缘或/和复杂纹理,这些分量使用哈斯(Harris)角点检测算法分别提取出来,并分别在CAB块中进行隐式混合,通过最小化GW损失生成自然SR结果。尽管三个成分的指导来自HR图像,但CDC会在测试阶段推断出成分概率图,而无需进行任何检测。
CDC有三个CAB组成。每个CAB由两个pixel-shuffle层组成,一个用于生成粗略的SR结果,另一个用于生成表示分量概率图的Mask。然后对粗略的SR结果与其他的CAB输出进行加权,得到最终的SR重建结果。在训练阶段,CDC利用HR图像作为中间监督,以通过HR组件Mask的指导来生成IS损失。因此,CAB的中间损失定义为:
L
i
s
=
l
(
M
e
∗
x
,
M
e
∗
x
~
e
)
\mathcal{L}_{is} = l(M_e * x, M_e * \tilde{x}_e)
Lis=l(Me∗x,Me∗x~e)
M e M_e Me 表示从HR图像提取的组件指导Mask
l ( ⋅ ) l(·) l(⋅) 可以是任何损失函数,本文采用L1损失函数
梯度加权损失:平面、边缘和角的检测方案根据图像的重要性提供一个合理的图像解耦,因此可以用于确定容易和困难的区域并获得最终的SR预测
x
^
\hat{x}
x^ 作为三个CAB块输出的总和:
x
^
=
∑
e
A
e
∗
x
~
e
\hat{x} = \sum_e A_e * \tilde{x}_e
x^=∑eAe∗x~e ,这里
A
e
A_e
Ae 表示注意力组件的Mask。作者提出一种梯度加权损失,以动态的调整其作用,从而最小化重建损失。按照这种原理,平坦边缘区域和单边缘区域自然被归类为简单区域。由于角具有图像中的细部细节,因此被归类为困难区域。考虑到不同区域的一阶梯度的多样性,新的SR重建损失函数GW损失定义为:
L
g
w
=
l
(
D
g
w
∗
x
,
D
g
w
∗
x
^
)
\mathcal{L}_{gw} = l(D_{gw}*x, D_{gw} * \hat{x})
Lgw=l(Dgw∗x,Dgw∗x^)
D g w = ( 1 + α D x ) ( 1 + α D y ) D_{gw} = (1+\alpha D_x)(1+\alpha D_y) Dgw=(1+αDx)(1+αDy)
D x = ∣ G x s r − G x h r ∣ D_x = |G_x^{sr} - G_x^{hr}| Dx=∣Gxsr−Gxhr∣,SR和HR在水平方向上的梯度差异图
D y = ∣ G y s r − G y h r ∣ D_y = |G_y^{sr} - G_y^{hr}| Dy=∣Gysr−Gyhr∣,SR和HR在垂直方向上的梯度差异图
α = 0 \alpha = 0 α=0 ,GW损失变为原始损失 l ( x , x ^ ) l(x, \hat{x}) l(x,x^);本文设置 α = 4 \alpha=4 α=4 ,此时的GW损失作为 L r e c \mathcal{L}_{rec} Lrec。
结果对比:
3. SRFlow
SRFlow: Learning the Super-Resolution Space with Normalizing Flow,paper,code
SRFlow:通过归一化流学习超分辨率空间。给定输入的低分辨率图像,作者将超分辨率公式化为学习高分辨率图像上的条件概率分布的问题,使用单项损失(即负对数可能性)以有原则的方式训练模型。
问题描述:
给定一个LR图像,传统方法只能预测单个SR输出,而SRFlow方法可以从学习到的分布中采样多个不同的SR图像。
与学习数据分布的方法GAN不同,GAN需要仔细调参实现多种损失,而SRFlow使用单一损失的稳定训练:negative log-likelihood,克服了GAN模型崩溃的问题;SRFlow采用完全可逆的编码器,能够将任何输入的HR图像映射到潜在的流空间并确保精确的重建。
目前多数方法:设给定低分辨率图像LR为x ,对应的高分辨率图像HR为y,学习确定的映射:x → \rightarrow → y
SRFlow:捕获与 x 对应的 y 的所有条件分布: p y ∣ x ( y ∣ x , θ ) p_{y|x}(y|x, \theta) py∣x(y∣x,θ) ,网络的目的就是训练分布的参数 θ \theta θ 。
归一化流的核心思想就是使用可逆神经网络 f θ f_{\theta} fθ 参数化分布 p y ∣ x p_{y|x} py∣x, f θ f_{\theta} fθ 将HR-LR图像对映射到一个潜变量 z = f θ ( y ; x ) z = f_{\theta}(y;x) z=fθ(y;x) ,并且此过程可逆,即存在 y = f θ − 1 ( y ; x ) y = f_{\theta}^{-1}(y;x) y=fθ−1(y;x)
,也即HR图像 y 总是可以根据潜在编码 z 准确的重构。假设潜在空间 z 中的简单分布
p
z
(
z
)
p_z(z)
pz(z) ,条件分布
p
y
∣
x
(
y
∣
x
,
θ
)
p_{y|x}(y|x, \theta)
py∣x(y∣x,θ) 由样本
z
∽
p
z
z \backsim p_z
z∽pz 的映射
y
=
f
θ
−
1
(
y
;
x
)
y = f_{\theta}^{-1}(y;x)
y=fθ−1(y;x) 隐式定义。归一化流的关键就是概率密度
p
y
∣
x
p_{y|x}
py∣x 可以明确地计算为:
p
y
∣
x
(
y
∣
x
,
θ
)
=
p
z
(
f
θ
(
y
;
x
)
)
∣
d
e
t
∂
f
θ
∂
y
(
y
;
x
)
∣
p_{y|x}(y|x, \theta) = p_z(f_{\theta}(y;x)) | det \frac{\partial f_{\theta}}{\partial y}(y;x) \mid
py∣x(y∣x,θ)=pz(fθ(y;x))∣det∂y∂fθ(y;x)∣
上式允许我们通过最小化训练样本对 (x, y) 的负对数似然(the negative log-likelihood, NLL)损失来训练网络:
L
(
θ
;
x
,
y
)
=
−
log
p
y
∣
x
(
y
∣
x
,
θ
)
=
−
log
p
z
(
f
θ
(
y
;
x
)
)
−
log
∣
d
e
t
∂
f
θ
∂
y
(
y
;
x
)
∣
\mathcal{L}(\theta ;x,y) = -\log {p_{y|x}(y|x, \theta)} =-\log {p_z(f_{\theta}(y;x))} -\log |{det \frac{\partial f_{\theta}}{\partial y}(y;x)|}
L(θ;x,y)=−logpy∣x(y∣x,θ)=−logpz(fθ(y;x))−log∣det∂y∂fθ(y;x)∣
将神经网络
f
θ
f_{\theta}
fθ 分解为 N 个可逆层的序列
h
n
+
1
=
f
θ
n
(
h
n
;
g
θ
(
x
)
)
h^{n+1}=f_{\theta}^n(h^n;g_{\theta}(x))
hn+1=fθn(hn;gθ(x)) (
h
0
=
y
,
h
N
=
z
h^0 = y, h^N=z
h0=y,hN=z),上式又可以写成:
L
(
θ
;
x
,
y
)
=
−
log
p
z
(
z
)
−
∑
n
=
0
N
−
1
log
∣
d
e
t
∂
f
θ
n
∂
h
n
(
h
n
;
g
θ
(
x
)
)
∣
\mathcal{L}(\theta ;x,y) = -\log {p_z(z)} -\sum_{n=0}^{N-1} \log{|{det \frac{\partial f_{\theta}^n}{\partial h^n}(h^n;g_{\theta}(x))|}}
L(θ;x,y)=−logpz(z)−n=0∑N−1log∣det∂hn∂fθn(hn;gθ(x))∣
因此,只需要为每个单独的流层(flow-layer)
f
θ
n
f_{\theta}^n
fθn 计算雅各布(Jacobian)对数行列式。
网络的整体架构:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hDsr7eNy-1603156767800)(ECCV2020超分辨率篇.assets/SRFlow.png)]
整个SRFlow网络由可逆流网络 f θ f_{\theta} fθ 和 LR编码器 g θ g_{\theta} gθ 组成。流网络 f θ f_{\theta} fθ 具有L层,每层的分辨率为 H 2 l × W 2 l \frac{H}{2^l} \times \frac{W}{2^l} 2lH×2lW, l l l 为当前层的索引值,每层又包含 K 个Flow-step。
Flow-step:每个Flow-step由4个不同的层组成,如图2蓝色块所示。
Low Resolution Encoder g θ g_{\theta} gθ :采用n个残差密集块(RRDB)的堆叠,其实就是经典SISR网络的特征提取部分,最终的输出为 g θ g_{\theta} gθ 。
结果对比:
4. Holistic Attention Network
Single Image Super-Resolution via a Holistic Attention Network,paper
本文是对注意力机制的改进,由于通道注意力对于保留每一层中的丰富的特征信息有效,而把每个卷积层视为一个单独的过程,忽视了不同层之间的相关性。因此,作者提出全注意力网络HAN(holistic attention network),由层注意力块LAM(layer attention module)和通道空间注意力块CSAM(channel-spatial attention module)组成,对层、通道和位置的整体相互依赖关系进行建模。LAM通过考虑层之间的相关性来自适应地强调分层特征。CSAM学习每个通道所有位置的置信度,以有选择地捕获更多信息性特征。
HAN网络整体架构如下:
HAN的架构还是很简单的,整个框架基于RCAN,与其不同的是:HAN将每个RG的输出Concat连接起来,然后通过一个LAM,对层进行加权,即LAM能够增强高贡献特征层并抑制冗余特征层;特征提取部分最后的输出接一个CSAM,自适应获取通道内和通道间更重要的信息。
LAM结构如下:
将N个RG输出Concat连接起来,Size为NxWxHxC,然后reshape成NxHWC的二维矩阵,并使用矩阵相乘和相应的矩阵转置来计算不同层之间的相关系数 w i , j w_{i,j} wi,j,也就是对RG中的特征组进行加权,新生成的加权特征组 F L j = α ∑ i = 1 N w i , j F G i + F G j F_{L_j} = \alpha \sum_{i=1}^N w_{i,j}FG_i + FG_j FLj=α∑i=1Nwi,jFGi+FGj , i , j i,j i,j 分别为第 i i i 和第 j j j 个特征组, α \alpha α 为可学习参数,初始为0。可以看到,新生成的第 j j j 个特征组与其他的特征组相关。
CSAM结构如下:
现有的空间注意机制主要集中于特征的尺度维度,很少吸收通道维度信息。作者提出的CSAM机制包含来自特征图所有维度的响应,为了精度和速度的权衡,作者把它用于最后一个特征组的末尾。较新颖的是,作者在CSAM中使用3维卷积,以通过捕获联合通道和空间特征生成注意力特征图。
结果对比:
HAN+:使用自集成
5. LatticeNet:
LatticeNet: Towards Lightweight Image Super-resolution with Lattice Block,paper
轻量级晶格网络。
网络整体架构:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uOedEAxn-1603156767802)(ECCV2020超分辨率篇.assets/LatticeNet.png)]
网络包含四个部分:
浅层特征提取:两层3x3卷积级联
多个级联的晶格块(Lattice Block, LB)
反向融合模块(Backward Fusion Module, BFM):
上采样模块
Lattice Block(LB):
晶格滤波器的结构是FFT实时抽取蝶形运算的一种变体,它将输入信号分解为多阶表示形式。Fig2.(a)为标准的2通道滤波器组标准晶格结构基本单元,它是一种蝶形结构。Fig2.(b)为本文的晶格块结构,包含两个蝶形结构,每个蝶形结构具有一个RB(Residual Block),给定一个输入特征图 X \mathcal{X} X ,在1x1卷积之前的输出 Y \mathcal{Y} Y 为:
特别的是,根据组合系数 A i , B i A_i, B_i Ai,Bi 的不同,LB具有多种不同的组合模式。举个例子:
Fig3.(a): A i − 1 = B i − 1 = A i = B i = 1 A_{i-1} = B_{i-1} = A_i = B_i=1 Ai−1=Bi−1=Ai=Bi=1
Fig3.(b): A i − 1 ≠ B i − 1 , A i = B i = 1 A_{i-1} \neq B_{i-1}, A_i = B_i=1 Ai−1=Bi−1,Ai=Bi=1
Fig3.©: A i − 1 = B i − 1 , A i ≠ B i = 1 A_{i-1} = B_{i-1}, A_i \neq B_i=1 Ai−1=Bi−1,Ai=Bi=1
Fig3.(d): A i − 1 ≠ B i − 1 , A i ≠ B i = 1 A_{i-1} \neq B_{i-1}, A_i \neq B_i=1 Ai−1=Bi−1,Ai=Bi=1
Combination coefficient learning:组合系数向量 A i , B i A_i, B_i Ai,Bi 实际上在LB中扮演连接权重的角色,作者通过注意力机制来计算组合系数,方法采用整合平均池化和标准差池化,如下图所示:
Backward fusion module(BFM)
层次信息对SR非常重要,因此作者将每个LB的输出融合入BFM,采用反向顺次级联策略对不同的感受野特征进行融合。核心操作是1x1卷积和Relu**,对每个LB输出对其从后往前进行融合。
结果对比:
测试所提LB的有效性:
在SRResNet和RCAN中,作者使用一个LB替换4个连续的RB块
可见,参数量减少一半的情况下,就获得与原方案可比的性能。
测试BFM的有效性:
2nd中1x1卷积表示采用RDN中使用1x1卷积直接融合所有的LBs。可以看出,同时使用LB和BFM性能最高。
在四个测试集上的结果:
6. VarSR
VarSR: Variational Super-Resolution Network for Very Low Resolution Images,paper
极低分辨率(如8x8)的变分超分网络:从学习到的LR和SR图像的潜在共同分布中抽取样本,以生成多种SR图像作为多对一关系。
超分辨率是一个不适定问题,即一个LR图像有多个HR图像与之对应,或者说多个HR图像可以共享一个低分辨率LR图像。目前的超分方法大多基于确定的超分模型,即一个LR图像对应一个HR图像,因为它们是基于LR和与其对应的严格的配对HR图像的点对点误差最小化进行优化。如下图(a)
作者的VarSR方法LR与HR是一对多的关系,通过对共享分布中的多个潜在变量进行采样来匹配低/高分辨率的潜在分布,以产生多种超分输出。如下图(b)
LS表示匹配的潜在空间
作者为LR和HR图像引入两个潜在变量,并以此作为网络训练的输入。训练时跟以前经典的SR方法一样,网络最后可以生成多个看上去效果还不错的SR图像。这可以解决确定性SR模型的单一结果不佳,而VarNet可以生成多个接近HR的输出,因此经过多次搜索可以构成足够大小的候选清单,即它是以产生多个输出而减少犯错误的机会。
在训练阶段使用LR和HR作为输入,以生成LR和HR的潜在分布,然后从潜在分布 z z z 中随机抽取,与LR结合生成SR。
在推理阶段,从潜在分布 z z z 中采样,结合LR,生成多个SR。
VarNet采样U-Net和SRGAN架构,见补充材料部分,但我目前并没有找到补充材料的资源。
7. Learning with Privileged Information
Learning with Privileged Information for Efficient Image Super-Resolution,paper,code
广义知识蒸馏特权信息学习:提出教师学生模型,大幅提高FSRCNN的性能。教师中的编码器模仿损失学习退化过程,即对HR图像进行二次采样;学生(和FSRCNN相同的框架)和教师中的解码器,尝试重建HR图像。
问题描述:
金典的SISR网络计算成本高、内存消耗大,很难部署于本地设备上,如电视或电话的单个芯片上。而使用递归又很难达到PSNR和速度/内存的折衷,基于模型剪枝和参数量化的网络压缩方法又存在剪枝在本地时速度不高和量化不适于高精度网络的问题。知识蒸馏是网络压缩的另一种方式,其中大型网络(即教师网络)将输出分布的softed vision(即logit)或中间特征表示传递给小型网络(即学生网络),它已经显示出特别是在图像分类任务中的有效性。广义蒸馏更进一步,允许教师在训练时使用额外的(特权)信息,并利用补充知识来协助学生网络的训练过程。
网络结构:
T表示教师网络,S表示学生网络
左图为基于教师/学生的传统的知识蒸馏网络,右图为所提网络。可以看出,所提网络的明显的区别在于用真实GT图像作为特权信息训练教师网络,以往的SISR方法只是将GT与整个网络输出的SR结果求损失,以惩罚错误重构,这里却利用GT作为LR图像的补充信息(如高频分量)。右图中的教师网络是编码/解码的结构,学生网络采用FSRCNN架构。
T与S的具体细节如图:
教师网络:采用真实HR作为输入(
Y
Y
Y),编码器Encoder提取紧凑的特征表示(
X
^
T
\hat{X}^{\mathcal{T}}
X^T),即将高维
Y
Y
Y 转化为低维表示
X
^
T
\hat{X}^{\mathcal{T}}
X^T ,这种高维到低维的映射可以避免当输入为真实HR时,教师网络只能学习复制输入以重建HR;然后,解码器重建HR输出(
Y
^
T
\hat{Y}^{\mathcal{T}}
Y^T)。训练采用模仿损失
L
i
m
T
L_{im}^{\mathcal{T}}
LimT 和重建损失
L
r
e
c
o
n
T
L_{recon}^{\mathcal{T}}
LreconT ,如上图右上部分。总损失为:
L
t
o
t
a
l
T
=
L
r
e
c
o
n
T
+
λ
T
L
i
m
T
L_{total}^{\mathcal{T}} = L_{recon}^{\mathcal{T}} + \lambda^{\mathcal{T}}L_{im}^{\mathcal{T}}
LtotalT=LreconT+λTLimT
学生网络:使用教师网络中的解码器权重初始化学生网络,从LR输入(
X
X
X)中恢复HR输出(
Y
^
S
\hat{Y}^{\mathcal{S}}
Y^S)。训练采用蒸馏损失
L
d
i
s
t
i
l
S
L_{distil}^{\mathcal{S}}
LdistilS 和重建损失
L
r
e
c
o
n
S
L_{recon}^{\mathcal{S}}
LreconS ,如上图右下部分。总损失为:
L
t
o
t
a
l
S
=
L
r
e
c
o
n
S
+
λ
S
L
d
i
s
t
i
l
l
S
L_{total}^{\mathcal{S}} = L_{recon}^{\mathcal{S}} + \lambda^{\mathcal{S}}L_{distill}^{\mathcal{S}}
LtotalS=LreconS+λSLdistillS
估计器模块:获取学生网络的中间特征图,并分别输出位置图和比例图,即µ和b。
特别地:学生网络和解码器共享相同的网络体系结构。
结果对比:
参数对比:
在Set5数据集上,PSNR取平均值,scale=2
8. Stochastic Frequency Masking
Stochastic Frequency Masking to Improve Super-Resolution and Denoising Networks,paper,code
随机频率掩模改善超分辨率和降噪网络。
摘要:超分辨率和去噪是不适的,但仍是基本的图像恢复任务。在盲环境下,降级内核或噪声级别未知,这使得恢复甚至更具挑战性,尤其是对于基于学习的方法而言,因为它们倾向于过度适应训练期间出现的退化。我们在频域中对超分辨率下的退化内核过度拟合进行了分析,并介绍了一种扩展到超分辨率和降噪的条件学习观点。在我们的公式的基础上,我们提出了用于训练的图像的随机频率掩模,以使网络规则化并解决过度拟合的问题。我们的技术改进了具有不同合成内核,真实超分辨率,盲高斯去噪和实像去噪的盲超分辨率的最新技术。
9. Journey Towards Tiny Perceptual Super-Resolution
Journey Towards Tiny Perceptual Super-Resolution,paepr
微小感知超分辨率。
摘要:单图像感知超分辨率(SR)的最新工作已证明通过深度卷积网络生成逼真的纹理具有空前的性能。但是,这些卷积模型过大且昂贵,阻碍了它们在终端设备上的有效部署。在这项工作中,我们提出了一种神经体系结构搜索(NAS)方法,该方法将NAS和生成对抗网络(GAN)与感知性SR的最新进展集成在一起,并提高了小型感知性SR模型的效率,以促进设备执行。具体来说,我们依次搜索生成器和鉴别器的体系结构,重点介绍了搜索SR优化鉴别器并将其与文献中现有鉴别器体系结构进行比较的独特挑战和关键观察。我们的微型感知SR(TPSR)模型在全参考感知度量(LPIPS)和失真度量(PSNR)上均优于SRGAN和EnhanceNet,同时分别提高了26.4倍的内存效率和33.6倍的计算效率。
个人总结
通过上面的论文梳理,可以ECCV2020上有几大值得关注的地方:1)关注于图像的分布,2)将HR也作为输入 ,3)损失函数非单一的HR与SR的差异,而是多种损失的加权。
第一篇论文IRN借鉴 Density estimation using Real NVP 中可逆神经网络INN的思想,创新地将HR经小波变换分解为低频分量和高频分量作为网络的输入,网络生成潜在分布和多个LR图像,然后以此再逆变换重建HR图像。性能提高极大!
第二篇论文采用分而治之的思想,即将图像的平面、边缘和角进行不同的注意力机制,使网络更关注于学习高频细节特征。
以上两篇都是把网络学习的重点放在了高频部分。
第三篇论文直接学习HR图像的条件分布,并直接以分布差异作为损失函数,获得性能的提升。
第四篇是对RCAN网络的改进,RCAN的深度特征提取部分的输出是直接输入到重建模块的,作者提出关注于层的和关于通道空间的注意力机制以更好的融合和捕获前面网络的输出特征。
第五篇晶格网络的超分论文,我觉得作者提出的反向级联融合模块是一个亮点,打破了之前方法对特征提取模块输出特征的顺序融合或者最后一个模块的输出送入直接重建部分的方式,作者也通过消融实验证明了这种融合方式的有效性。
第六篇是针对极低分辨率(如8x8)的超分,极低分辨率包含HR高频信息极少,因此作者用HR与LR同时作为网络的输入,学习其潜在分布,生成多个SR,然后通过搜索的方式得到最终的结果。
第七篇是教师/学生网络应用于超分的实例,特别地,作者以HR作为教师网络的输入,并用其输出初始化学生网络,即通过教师网络补足了LR图像中缺失的高频信息。
后面的两篇与本人目前的方向相关性不大,鉴于时间关系,这里并未介绍。
三篇论文直接学习HR图像的条件分布,并直接以分布差异作为损失函数,获得性能的提升。
第四篇是对RCAN网络的改进,RCAN的深度特征提取部分的输出是直接输入到重建模块的,作为提出关注于层的和关于通道空间的注意力机制以更好的融合和捕获前面网络的输出特征。
第五篇晶格网络的超分论文,我觉得作者提出的反向级联融合模块是一个亮点,打破了之前方法对特征提取模块输出特征的顺序融合或者最后一个模块的输出送入直接重建部分的方式,作者也通过消融实验证明了这种融合方式的有效性。
第六篇是针对极低分辨率(如8x8)的超分,极低分辨率包含HR高频信息极少,因此作者用HR与LR同时作为网络的输入,学习其潜在分布,生成多个SR,然后通过搜索的方式得到最终的结果。
第七篇是教师/学生网络应用于超分的实例,特别地,作者以HR作为教师网络的输入,并用其输出初始化学生网络,即通过教师网络补足了LR图像中缺失的高频信息。
后面的两篇与本人目前的方向相关性不大,鉴于时间关系,这里并未介绍。