视频超分之BasicVSR-阅读笔记

时间:2022-12-03 14:05:51

    对于视频超分提出了很多方法,EDVR中采用了多尺度可变形对齐模块和多个注意层进行对齐和定位并且从不同的帧聚合特征,在RBPN中,多个投影模块用于顺序聚合多个帧中的特征。这样的设计是有效的,但不可避免地增加了运行时和模型的复杂性。此外,与SISR不同,VSR方法的潜在复杂和不同设计在实施和扩展现有方法方面造成了困难,妨碍了再现性和公平比较。我们首先根据功能将流行的VSR方法分解为子模块,大多数现有方法包含四个相互关联的组件,传播、对齐、聚合和上采样在上述四个组件中,传播和对齐组件的选择可能会导致性能和效率的大幅波动。我们的实验建议使用双向传播方案来最大化信息收集,并使用基于光流的方法来估计两个相邻帧之间的对应关系,以便进行特征对齐。通过使用聚合(即特征串联)和上采样(即像素洗牌)的常用设计简化这些传播和对齐组件,BasicVSR在性能和效率方面都优于现有的最新技术。

            

方案,它促进了前向和后向传播分支之间的信息交换。这两个模块不仅减少了传播过程中由于遮挡和图像边界造成的误差累积,而且允许传播以序列形式访问完整信息,以生成高质量的特征。通过这两种新设计,IconVSR超过了BasicVSR,峰值信噪比提高了。

2.相关工作

    现有的VSR方法主要可分为两个框架——滑动窗口和循环。滑动窗口框架中的早期方法预测低分辨率(LR)帧之间的光流并为对齐执行空间扭曲。后来的方法求助于更复杂的隐式对齐方法。例如,TDAN采用可变形卷积(DCN)在特征级别对齐不同的帧。EDVR进一步以多尺度方式使用DCN,以实现更精确的对齐。DUF利用动态上采样过滤器隐式处理运动。有些方法采用循环框架。RSDN提出了一种结构块和隐藏状态自适应模块,以增强对外观变化和错误累积的鲁棒性。RRN在具有标识跳过连接的层之间采用残差映射,以确保流畅的信息流,并长期保存纹理信息。IconVSR中的信息重新填充机制让人想起基于区间的处理概念。这些方法将视频帧划分为以关键帧和非关键帧为特征的独立间隔。然后关键帧和非关键帧通过不同的管道进行处理。IconVSR通过传播分支将间隔连接起来进行一次推进。通过这种设计,长期信息可以在相互关联的时间间隔内传播,从而进一步提高效率。

3方法

。BasicVSR的概述如图所示。

3.1传播

。此外,在仅使用部分信息的情况下,观察到一致的性能下降0.5 dB。这些观察揭示了单向传播的次优性。通过从序列的最后一帧传回信息,可以提高输出质量。

    双向传播:上述两个问题可以通过双向传播同时解决,其中特征在时间上独立地向前和向后传播。BasicVSR采用了一种典型的双向传播方案。给定LR图像xi和邻帧xi-1和xi+1,以及来着邻帧相应的特征传播,定义为hfi-1和hbi+1,Fb和Ff分别表示反向和正向传播分支:

                

3.2对齐

。进行实验来分析每一个类别,并验证我们对特征对齐的选择。

,最终导致性能不达标。这种次优性可以通过我们的实验反映出来,我们移除了BasicVSR中的空间对齐模块。在这种情况下,我们直接连接不对齐的特征进行恢复。如果没有适当的对齐,传播的特征就不会与输入图像在空间上对齐。因此,像卷积这样的局部操作具有相对较小的感受野,无法有效地聚合来自相应位置的信息。且psnr下降的很多。

的必要性。

    特征对齐移除图像对齐的较差性能促使我们求助于特征对齐。BasicVSR采用光流进行空间对齐,我们没有像以前的作品那样扭曲图像,而是对特征进行扭曲以获得更好的性能。然后将对齐的特征传递给多个残差块进行细化:

               

    S和W分别表示流估计和空间扭曲模块,R{b,f}表示残差块的堆栈。

3.3聚合和上采样

    BasicVSR采用基本组件进行聚合和上采样。具体地说,给定中间特征h{b,f}i,使用由多个卷积和pixelshuffle组成的上采样模块来生成输出HR图像,U为上采样模块

            

    总结:上述分析推动了BasicVSR的设计选择。对于传播,BasicVSR选择了双向传播,重点是长期和全局传播。对于对齐,BasicVSR采用了一种简单的基于流的对齐,但在功能级别进行。对于聚合和上采样,选择流行的特征串联和像素混洗就足够了。尽管BasicVSR是一种简单而简洁的方法,但它在恢复质量和效率方面都取得了很好的效果。BasicVSR也具有高度的通用性,因为它可以方便地容纳额外的组件,以处理更具挑战性的场景。

3.4从BasicVSR到IconVSR

    IconVSR引入了两个新组件——信息填充机制和耦合传播,以减轻传播过程中的错误积累,并促进信息聚合。

    Information-Refill:在遮挡区域和图像边界上的不准确对齐是一个突出的挑战,可能会导致错误累积,尤其是如果我们在我们的框架中采用长期传播。为了缓解这些错误特征带来的不良影响,我们提出了一种用于特征细化的信息填充机制。 另一个特征提取器用于从输入帧(关键帧)的子集及其各自的邻居中提取深度特征。然后通过卷积将提取的特征与对齐的特征h_i(等式2)融合

。信息重新填充机制带来的计算负担微不足道。

的情况下获得性能增益。

4.实验

    各个数据上表现:

5.消融研究

5.1从BasicVSR到IconVSR

。丢失的信息不可避免地会恶化特征质量,导致输出质量下降。 通过我们的信息补充机制,附加功能可用于在功能对齐不良的区域“补充”丢失的信息。然后,检索到的信息可用于后续的特征细化和传播。

机制,并将IconVSR与BasicVSR进行了比较。在图中,黄色框表示在先前帧中被遮挡的区域,并且BasicVSR中的前向传播分支无法接收该区域的信息。红色框表示序列的所有帧中都存在一个区域,因此可以在后面的帧中找到该区域的大量“快照”。通过耦合传播,可以更有效地利用反向传播的特征,从而重建更多细节和更精细的边缘。

5.2 Tradeoff in IconVSR

,验证了信息填充机制的贡献。在没有关键帧的极端情况下,IconVSR退化为循环网络。尽管如此,它仍然在REDS-val4上实现了30.38 dB的峰值信噪比,比BasicVSR高0.21 dB。这证明了我们的耦合传播方案的有效性,它可以在不引入额外计算开销的情况下使用。

6.结论

,以进一步提高性能。BasicVSR和IconVSR可以作为未来工作的强大基线,架构设计的发现可能会扩展到其他低级视觉任务,如视频去模糊、去噪和着色。

附录

    结构:都采用SPyNet作为流量估计器我们在每个传播分支中使用30个残差块。特性通道设置为64。在IconVSR中,我们采用EDVRM作为额外的特征提取器,因为它在效率和质量之间保持了良好的平衡。表总结了这些组件的复杂性。BasicVSR和IconVSR共享相同的流量估计器和主网络。主网络是一个轻量级网络,仅由490万个参数组成。流量估计器和特征提取器与主网络一起进行微调。在我们所有的实验中,每五帧被选为关键帧。请注意,特征提取程序仅应用于关键帧。因此,它带来的计算负担是微不足道的。

来临时增加输入序列来临时增加序列以允许更长的传播时间。 换句话说,我们用14帧的序列进行训练。在推理过程中,我们将整个视频序列作为输入。

表示基本真值HR帧,N表示像素数。

    退化:我们使用两种降阶方法——双三次(BI)和模糊降采样(BD)对模型进行4倍降采样训练和测试。对于BI使用MATLAB函数imresize进行下采样。对于BD使用σ=1.6的高斯滤波器模糊gt,然后每四个像素进行一次子采样。 

 

总结:BasicVSR是视频超分非常好的一个baseline,使用双向传播以及光流对齐,简单,效果好,可以考虑在该模型上进行创新。

https://arxiv.org/pdf/2012.02181.pdf

https://github.com/open-mmlab/mmediting/blob/master/configs/restorers/basicvsr/README.md