Abstract
图像去模糊是一个病态问题,对给定的输入图像有多个合理的解。
然而,大多数现有方法都会对干净的图像进行确定性估计,并经过训练,以尽量减少像素级失真。
众所周知,这些指标与人类感知关系不佳,并经常导致不真实的重建。
这篇文章提出了一种基于条件扩散模型的盲去模糊替代框架。
与现有技术不同,作者训练了一个随机采样器,该采样器可以细化确定性预测器的输出,并能够为给定的输入生成一套多样化的合理重建。
与多个标准基准的现有最先进方法相比,这大大提高了感知质量。
与典型的扩散模型相比,所提出的预测和细化方法还可以实现更高效的采样。
结合精心调整的网络架构和推理程序,该方法在PSNR等失真指标方面是具有竞争性的。
这些结果表明,基于扩散的方法在去模糊方面具有明显的好处,并挑战了广泛使用的单一确定性重建策略。
Introduction
图像模糊是计算机视觉中一个长期存在的问题。各种情况,如移动物体、相机抖动或镜头失焦,可能会导致伪影模糊。单个图像模糊是一个高度病态的逆问题,多个似是而非的清晰图像可能会导致相同的模糊观察。尽管如此,大多数现有方法都会对干净的图像进行单一的确定性估计。
传统方法将去模糊表述为变分优化问题,并找到满足对某些图像和/或模糊核先验的解。随着深度学习的出现,卷积神经网络(CNN)已成为去模糊模型的事实标准。通常,这些CNN通过监督学习使用模拟清晰-模糊图像对进行训练。最小化L1或L2像素损失可能是训练此类模型最广泛采用的方法。这些损失提供了一个直接的学习目标,并针对流行的PSNR指标进行了优化。不幸的是,众所周知,PSNR和其他失真指标仅部分对应于人类感知,实际上可能导致重建图像质量明显较低。为了缓解这个问题,最近的工作引入了额外的损失项,试图在更可靠地代表人类感知的指标下提高生成图像的质量。以监督的方式从损坏的图像到已知真实图像的训练网络属于端到端方法。这些方法在分布中表现非常好,但对分布偏移或退化过程的变化可能相当脆弱。
第二套工作侧重于使用深度生成模型来解决逆问题。 对于去模糊,生成对抗网络(GAN)已成功应用,并具有竞争力。基于GAN的恢复方法以对抗性损失训练去模糊网络,使恢复的图像在感知上更合理。然而,到目前为止,所提出的方法是确定性的,对抗性损失通常会引入原始干净图像中不存在的伪影,导致大的失真(例如超分辨率的[44])。
在这项工作中,作者采用了不同的视角,并将去模糊视为一项条件生成建模任务,我们寻求从后验分布中生成不同的样本。具体来说,作者引入了一个 “predict-and-refine” 的条件扩散模型,其中确定性数据自适应预测器与随机采样器联合训练,该随机采样器细化了所述预测器的输出(如图2所示)。
与标准扩散模型相比,所提出的预测和细化方法可以实现更有效的采样。这种公式还自然而然地导致了一个随机模型,能够在不牺牲像素级失真的情况下生成逼真的图像。这是第一个利用深度生成模型并能够产生各种样本的盲去模糊技术。
总体而言,该方法产生了各种合理且逼真的结果,同时在多个标准数据集的失真和感知质量方面,在许多定量指标下实现了最先进的状态。此外,通过汇总不同数量的生成的模糊样本,该框架使我们能够方便地超越图1所示的感知-失真曲线,而无需任何昂贵的重新训练或微调。这些结果表明,基于随机扩散的方法在去模糊和挑战目前产生确定性重建的主导策略方面具有明显的好处。