【深度学习】SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models

Posted by ShawnD on June 30, 2022

Abstract

单图像超分辨率(SISR)是将给定的低分辨率(LR)图像重建为高分辨率(HR)图像,这是一个病态问题,因为一个LR图像对应多个HR图像。

近年来,基于学习的SISR方法的性能大大超过了传统的方法,但面向PSNR的方法、GAN驱动的方法和基于Flow的方法分别存在过平滑、模式崩溃或模型占用过大的问题。

为了解决这些问题,这篇文章提出了一种新的单图像超分辨扩散概率模型(SRDiff),这是第一个基于扩散模型的单图像超分辨模型。

SRDiff 优化一个在数据似然的变分下限的变体,通过马尔可夫链将高斯噪声逐渐转化为以LR输入为条件的超分辨率(SR)图像,从而提供多样化和真实的SR预测。

此外,在整个框架中引入残差预测,以加快收敛速度。

在面部和通用基准测试(CelebA和DIV2K数据集)上的广泛实验表明:

1) SRDiff可以在只提供一个LR输入的情况下,生成具有丰富细节和最先进性能的多样化SR结果

2) SRDiff易于训练

3)SRDiff可以进行灵活的图像处理,包括隐空间插值和内容融合。

Introduction

多年来,单图像超分辨率(SISR)因其在物体识别、遥感、监控等计算机视觉中的广泛应用而备受关注。SISR旨在从低分辨率(LR)图像中恢复高分辨率(HR)图像,这是一个病态的问题,如图1所示,多个HR图像可以退化为一个LR图像。

为了建立HR和LR图像之间的映射,出现了许多基于深度学习的方法,可以分为三种主要类型:面向PSNR、GAN驱动和基于 FLOW 的方法。面向PSNR的方法使用基于简单分布假设的损失进行训练(例如,L1的Laplacian 和 L2的Gaussian),并实现了出色的PSNR。然而,这些损失往往会将SR结果推向几个可能的SR预测的平均值,导致图像过于平滑和高频信息丢失。解决过度平滑问题的一个突破性解决方案是GAN驱动的方法,它结合了内容损失(例如L1和L2)和对抗性损失,以获得具有更好感知质量的更清晰的SR图像。然而,GAN驱动的方法很容易陷入模式崩溃,这导致单个生成的SR样本没有多样性。此外,基于GAN的训练过程不容易收敛,需要一个额外的判别器,其不用于推理。基于 Flow 的方法直接解释了可逆编码器的病态问题,该编码器将HR图像映射到以LR输入为条件的流空间。基于 Flow 的方法在负对数似然损失的情况下进行了训练,避免了训练不稳定性,但由于保持隐空间和数据之间的双射的强大架构约束,占用空间非常大,训练成本高昂。

最近,在图像合成和语音合成中成功采用扩散概率模型(简称扩散模型)见证了扩散模型在生成任务中的力量。扩散模型使用马尔可夫链,通过在扩散过程中逐渐添加噪声 $\epsilon$,在简单分布(例如高斯)中将数据 $x_0$ 转换为隐变量 $x_T$,并在每个扩散步骤中预测噪声 $\epsilon$,通过学习的逆过程重新复原数据 $x_0$。通过优化变分下界的变体来训练扩散模型,这既高效又避免了GAN遇到的模式崩溃。

这篇文章提出了一种新的单图像超分辨率扩散概率模型(SRDiff),以解决之前SISR模型中的过度平滑、模式崩溃和内存占用巨大问题。具体来说,1)为了提取LR图像中的图像信息,SRDiff利用预训练的低分辨率编码器将LR图像转换为隐藏的状态。2)为了生成以LR图像为条件的HR图像,SRDiff使用条件噪声预测器来迭代恢复x0。3)为了加快收敛和稳定训练,SRDiff引入了残差预测,在第一个扩散步骤中将HR和LR图像之间的差异作为输入x0,使SRDiff专注于恢复高频细节。SRDiff是第一个基于扩散的SR模型,有几个优点:

  • Diverse and high-quality outputs: SRDiff 通过马尔可夫链将高斯噪声转换为SR预测,该链不会受到模式崩溃的影响,并且可以产生多样化和高质量的SR重新结果。
  • Stable and efficient training with small footprint: 虽然HR图像的数据分布很难估计,但 SRDiff 使用变分界最大化的变体,并应用了残差预测。与GAN驱动的方法相比,SRDiff经过稳定的训练,只有一次损失,不需要任何额外模块(例如,仅用于训练的判别器)。与基于 Flow 的方法相比,SRDiff没有架构约束,因此受益于小的内存占用和快速训练。
  • Flexible image manipulation: SRDiff可以使用扩散过程和反向过程执行灵活的图像操作,包括潜空间内插值和内容融合,这显示了广泛的应用前景。

我们对CelebA和DIV2K数据集的广泛实验表明,1)SRDiff可以在一个LR输入的情况下重建多个SR结果,并优于最先进的SISR方法;2)与SRFlow相比,SRDiff只有1/4的参数,训练稳定且快速(在1个GPU上大约30小时,直到收敛);3)可以在隐空间中操作生成的SR图像,以获得更多样化的输出。

Conclusion

这篇文章提出了SRDiff模型,这可能是第一个基于扩散模型的单图像超分辨率模型。

这篇工作利用马尔可夫链将HR图像转换为简单分布的 latents,然后在反向过程中生成SR预测,该过程使用基于LR编码器编码的LR信息的 noise predictor 迭代 denoise latents。

为了加快收敛速度和稳定训练,SRDiff引入了残差预测。

在人脸和普通数据集上的大量实验表明,SRDiff可以生成多样化和真实的SR图像,并避免了分别在psnr导向方法和gan驱动方法中出现的过平滑和模式崩溃问题。

此外,SRDiff训练是稳定的,模型小,没有额外的判别器。

此外,SRDiff 允许灵活的图像处理,包括潜空间插值和内容融合。

未来将进一步提高基于扩散的SISR模型的性能,加快推理速度。

未来还将把工作扩展到更多的图像恢复任务(例如,图像去噪、去模糊和去雾),以验证扩散模型在图像恢复领域的潜力。