attention :只详细翻译了重点部分
摘要
图像超分辨率(SR)的最新进展展现了深度学习的力量,可以实现更好的重建性能。然而,现有的基于深度学习的图像SR方法尚未充分利用人类视觉系统中常见的反馈机制。在本文中,我们提出了一个图像超分辨率反馈网络(SRFBN)来改进具有高级信息的低级表示。具体而言,我们在具有约束的RNN中使用隐藏状态来实现这种反馈方式。反馈模块旨在处理反馈连接并生成强大的高级表示。所提出的SRFBN具有强大的早期重建能力,可以逐步创建最终的高分辨率图像。此外,我们引入了curriculum learning 策略,使网络非常适合于更复杂的任务,其中低分辨率图像被多种类型的降级破坏。广泛的实验结果证明了与现有技术方法相比,所提出的SRFBN的优越性。
1.介绍
随着网络的深度增加,参数的数量也会增加。大容量网络将占用大量存储资源并遭受过度拟合问题。
为了减少网络参数,通常采用循环结构。 最近的研究[22,10]表明,许多具有重复结构的网络(例如DRCN [19]和DRRN [31])可以外推为单状态逆流神经网络(RNN)。与大多数传统的基于深度学习的方法类似,具有重复结构的这些网络可以以前馈方式共享信息。然而,前馈方式使得先前的层不可能从以下层访问有用信息,即使采用跳过连接也是如此。
在认知理论中,连接皮层视觉区域的反馈连接可以将响应信号从高阶区域传输到低阶区域[17,19]。受此现象的推动,最近的研究[30,40]将反馈机制应用于网络架构。这些体系结构中的反馈机制以自上而下的方式工作,将高级信息传回到先前的层并改进低级编码信息。
在本文中,我们提出了一种新的图像SR网络,即超分辨率反馈网络(SRFBN),以便通过反馈连接使用高级信息来改进低级信息。 所提出的SRFBN本质上是具有反馈块(FB)的RNN,其专门用于图像SR任务。FB由多组上下采样层构成,具有密集跳过连接,可生成强大的高级表示。受[40]的启发,我们使用FB的输出,即展开的RNN中的隐藏状态,以实现反馈方式(见图1(a))。每次迭代的隐藏状态流入下一次迭代以调制输入。为了确保隐藏状态包含HR图像的信息,我们将损失连接到训练过程中的每次迭代。我们的反馈方案的原理是粗略SR图像的信息可以促进LR图像重建更好的SR图像(参见图1(b))。此外,我们为案例设计了一个课程,其中LR图像由复杂的退化模型生成。对于每个LR图像,其基于恢复难度的连续迭代的目标HR图像从易到难排列。这种课程学习策略很好地帮助我们提出的SRFBN处理复杂的退化模型。实验结果证明了我们提出的SRFBN与其他最先进方法的优越性。
总之,我们的主要贡献如下:
- 提出采用反馈机制的图像超分辨率反馈网络(SRFBN)。 通过反馈连接在自上而下的反馈流中提供高级信息。 同时,这种具有反馈连接的循环结构提供了强大的早期重建能力,并且仅需要很少的参数。
- 提出反馈块(FB),它不仅可以有效地处理反馈信息流,还可以通过上采样层和下采样层以及密集跳过连接来丰富高级表示。
- 为SRFBN提出curriculum -based训练策略,其中将具有增加的重建难度的HR图像作为连续迭代的目标馈入网络。 该策略使网络能够逐步学习复杂的退化模型,而对于那些只有一步预测的方法,同样的策略是不可能的。
2.相关工作
2.1基于深度学习的SR
略
2.2反馈机制
反馈机制允许网络携带输出概念以纠正先前的状态。最近,许多网络架构已经采用反馈机制来完成各种视觉任务[5,4,40,11,10,28]。对于图像SR,一些研究也显示了引入反馈机制的努力。基于反投影,Haris等 [11]设计了上升和下降投影单元,以实现迭代误差反馈。Han等人 [10]应用了延迟反馈机制,该机制在双态RNN中的两个重复状态之间传输信息。然而,与我们的网络架构不同,从LR图像到最终SR图像的信息流仍然是前馈的。
我们最相关的工作是[40],它将具有高级信息的隐藏状态转移到输入图像的信息,以实现卷积递归神经网络中的反馈。然而,它旨在解决高级视觉任务,例如,分类。为了在图像SR中拟合反馈机制,我们精心设计了反馈块(FB)作为SRFBN中的基本模块,而不是像[40]中那样使用ConvLSTM。我们FB中的信息通过密集跳过连接有效地跨层级层流动。实验结果表明, 我们的FB具有优于ConvLSTM1的重建性能,因此更适合于图像SR任务。
2.3curriculum learning
Curriculum learning [2]逐渐增加了学习目标的难度,众所周知,这是改进训练程序的有效策略。早期的课程学习工作主要集中在一项任务上。 Pentina等 [27]以连续的方式将课程学习扩展到多个任务。高等人 [8]利用课程学习解决图像恢复中的固定问题。由于他们的网络仅限于一次性预测,他们通过在训练过程中随着时代的增加而提供任务复杂性的不同训练数据来强制执行课程。在图像SR的背景下,Wang等人[38]设计了金字塔结构的课程,在以前训练过的网络中逐渐融合金字塔的新层次,将LR图像升级到更大的尺寸。
虽然之前的工作主要集中在单个degradation(劣化)过程,但我们对案例强制执行curriculum ,其中LR图像被多种类型的劣化所破坏。包含易于做出决策的curriculum可以针对一个问题进行解决,以逐步恢复损坏的LR图像。
3.feedback network for image SR
反馈系统包含两个要求:(1)迭代性和(2)改变系统的输出以更正每个循环中的输入。这种迭代因果过程有助于实现我们的图像SR反馈方案的原理:高级信息可以引导LR图像以恢复更好的SR图像(参见图1(b))。
在所提出的网络中,实施我们的反馈方案有三个必不可少的部分:
(1)在每次迭代时绑定损失(迫使网络在每次迭代时重建SR图像,从而允许隐藏状态携带高级信息的概念)
(2)使用循环结构(实现迭代过程)
(3)在每次迭代时提供LR输入(以确保低级信息的可用性,这是需要被精炼的)。
如果缺少这三个部分,网络将无法推动反馈流程。
3.1网络结构
3.2. Feedback block
3.4. Implementation details
4.实验结果
4.1 settings
Datasets and metrics
Training dataset: DIV2K and Flickr2K, make data augmentation
Metrics: PSNR, SSIM
定量结果分析:仅在Y通道上
退化(degradation)方法:bicubic(BI)下采样。为证明我们curriculum learning的有效性,我们另外实验了加了两种退化模型,在4.4和4.5.3中。
BD:加了高斯blur的下采样。设置为7x7的gaussian kernel with standard deviation 1.6 for blurring.
DN:伴随着noise level为30的adding gaussian noise 的bicubic下采样
训练相关设置:batch size为16,为充分利用LR图像上下文信息,我们根据提升因子给出不同大小的RGB patch。输入patch大小设置在表1中给出。使用【12】的方法初始化网络参数,采用ADAM优化器,初始学习率为0.0001.每200个epoch学习率乘以0.5。在pytorch中,用1080Ti GPU训练网络。
4.2 study of T and G
在这一小节中,我们探讨了迭代次数(表示为T)和反馈块中投影组的数目(表示为G)的影响。在随后的实验中,滤波器的基数m被设置为32。我们首先通过将G固定到6来研究T的影响。可以从图4(A)中观察到,在反馈连接的帮助下,与无反馈连接的网络(T=1)相比,重建性能明显提高。此外,随着T的不断增加,重建质量也在不断提高。换句话说,我们的反馈块肯定有利于跨时间的信息流。然后,我们通过将T固定到4来研究G的影响。图4(B)示出更大的G由于更深的网络的更强的代表能力而导致更高的精确度。总之,选择更大的T或G都有助于取得更好的结果。值得注意的是,小T和G仍然优于VDSR[18]。在下面的讨论中,我们使用SRFBN-L(T=4,G=6)进行分析。
实验结果比较
5. 结论
本文提出了一种新的图像SR网络-超分辨率反馈网络(SRFBN),通过增强高层次的图像表示来忠实地重建SR图像。网络中的反馈块(FB)可以有效地处理反馈信息流和特征重用。此外,还提出了一种curriculum学习策略,使网络能够很好地适应复杂退化模型破坏低分辨率图像的复杂任务。综合实验结果表明,所提出的SRFBN能以极小的参数提供与现有方法相比的比较或更好的性能。