【深度学习】SNIPS: Solving Noisy Inverse Problems Stochastically

Posted by ShawnD on March 30, 2023

Abstract

在这项工作中,我们引入了一种名为 SNIPS 的新型随机算法,该算法从任何线性逆问题的后验分布中采样样本,其中假设观察结果被加性白色高斯噪声污染。

我们的解决方案结合了 Langevin dynamics 和 Newton 的想法,并利用了预训练的最小均方误差(MMSE)高斯去噪器。

所提出的方法依赖于后验分数函数的复杂推导,该函数包括退化算子的奇异值分解(SVD),以获得所需采样的 tractable 迭代算法。

由于其随机性,该算法可以为相同的噪声观测生成多个高感知质量样本。

我们展示了所提出方法的图像去模糊、超分辨率和压缩感知范式的能力。

我们表明,产生的样本锐利、详细且与给定的观测结果一致,它们的多样性暴露了正在解决的逆问题中固有的不确定性。

Introduction

图像处理领域的许多问题可以转换为噪声线性逆问题。这一系列任务包括去噪、inpainting、去模糊、超分辨率、压缩感知和许多其他图像恢复问题。一个一般的线性逆问题被提出为:

\[y = Hx + z \tag{1}\]

我们的目标是从其观测 $y$ 中恢复信号 $x$,通过线性退化算子 $H$ 和加性高斯白噪声给出 $z \thicksim N(0, \sigma_0^2 I)$。在这项工作中,我们假设 $H$ 和 $\sigma_0$ 都是已知的。

多年来,开发了许多策略、算法和基础统计模型来处理图像恢复问题。许多经典尝试的一个关键因素是先验,旨在规范逆过程并产生视觉上令人愉悦的结果。在探索的各种选项中,我们提到了 sparsity-inspired 的技术[13,55,11], local Gaussian-mixture modeling[57,63],以及 non-local self-similarity 的方法[6,9,36,51]。最近,随着深度学习技术的出现,从 $y$ 到 $x$ 端到端地估计,在各种线性逆问题中产生了最先进的结果,如去噪[25、59、61、52]、去模糊[22、48]、超分辨率[10、17、54]和其他任务[29、28、19、16、37、58]。

尽管上述技术取得了明显的成功,但许多图像恢复算法仍然有一个关键的缺点:在严重退化的情况下,大多数恢复算法往往会产生缺乏细节的重建。事实上,大多数图像恢复技术都寻求一种重建,以尽量减少恢复的图像 $\hat x$ 和未知的原始图像 $x$ 之间的均方误差。当退化严重,信息不可逆转地丢失时,图像重建成为一个高度不利的问题,这意味着许多可能的清晰图像可以解释给定的观测。MMSE解决方案平均了所有这些候选解决方案,是给定 $y$ 的 $x$ 后验条件均值,导致在大多数实际案例中丢失精细细节的图像。[5]中最近报道的一项工作表明,重建算法必然会受到 perception-distortion 权衡的影响,即目标最小化 $\hat x$ 和 $x$ 之间的误差(在任何度量中)必然伴随着感知质量的降低。因此,只要我们坚持设计旨在实现最小MSE(或其他距离)的恢复算法的倾向,就只能期待有限的感知改进。

当感知质量成为我们的首要目标时,解决逆问题的策略必然会改变。更具体地说,解应该专注于从后验分布 $p(x \mid y)$ 而不是其条件均值生成样本。 最近,有人提出了两种这样的方法——基于 GAN 的采样和 Langevin 采样。生成对抗网络(GAN)在生成逼真的图像方面取得了令人印象深刻的效果(例如,[14,35])。GAN可用于解决逆问题,同时生成高质量的图像(例如[2,31,34])。这些求解器旨在生成一组与观测结果一致的多样化输出图像,同时与干净样本的分布保持一致。基于GAN的逆问题算法的一个主要缺点是它们倾向于(如[2,31,34]中实践)进行无噪声观测,这是实践中很少满足的条件。一个例外是[33]中报告的工作,它调整了一个条件的GAN,使其成为随机去噪器。

从后验采样的第二种方法,也是我们在本文中要关注的方法,是基于Langevin dynamics。这种核心迭代技术通过利用分数函数的可用性——概率密度函数对数的梯度[38,3],从给定分布中采样。[44, 20, 46]中报告的工作利用退火 Langevin dynamics 方法进行图像合成和解决无噪声逆问题。 他们的合成算法依赖于MMSE高斯去噪器(作为神经网络给出)来近似逐渐模糊的分数函数。在处理逆问题时,由于无噪音观测假设,条件评分仍然易于处理和可管理。

本文涉及的问题如下:如何推广上述基于 Langevin-based 工作线来处理线性逆问题,如方程1中观测是噪声的?这个问题的部分和有限的答案已经在[21]中给出了图像去噪和绘画任务。本工作概括了这些([44,20,46,21])结果,并引入了从任何给定噪声线性逆问题的后验分布中采样的系统方法。这种扩展并不简单,由于两个主要原因:(i)degradation operator H 的参与,这给重建的图像和噪声观测之间建立关系带来了困难;以及(ii)观测和合成退火的 Langevin 噪声之间的复杂联系。我们提出的解决措施是通过运算符 H 的奇异值分解(SVD)对观测方程进行 decorrelation,该分解将观测之间的依赖性解耦,使每个观测值都可以通过适应的迭代过程解决。此外,我们将要构建的退火噪声定义为观测噪声本身的一部分,以促进条件分数函数的建设性推导。

根据早期的工作[44,20,46,21],我们的算法用随机噪声图像初始化,逐渐收敛到重建的结果,同时遵循对数后验梯度的方向,使用MMSE去噪器估计。那些非零奇异值的部分首先纯粹依赖于观测值,然后过渡到包含基于去噪器的先验信息。至于涉及零奇异值的项,其相应的项要经历一个基于仅先验分数函数的纯合成过程。请注意,去噪器混合了演变的样本中的值,从而混合了梯度的影响。我们的推导包括位置相关步长向量的分析表达式,从牛顿的优化方法中汲取灵感。这稳定了算法,并证明对其成功至关重要。

我们以下将我们的算法称为SNIPS(Solution of Noisy Inverse Problems Stochastically)。请注意,当我们从后验分布 $p(x \mid y)$ 中采样时,同一输入上 SNIPS 的不同运行必然会产生不同的结果,所有这些都是给定逆问题的有效解。这不应该令人惊讶,因为病态意味着同一数据有多种可行的解,正如在超级分辨率[31, 2, 34]中已经提出的那样。我们演示了关于图像去模糊、单图像超分辨率和压缩感知的SNIPS,所有这些都包含不可忽视的噪声,并强调了结果的高感知质量、其多样性及其与MMSE估计的关系。

总而言之,本文的贡献有三个方面:

  • 对于一般噪声逆问题,我们提出了模糊的后验得分函数的复杂推导,其中观测和目标图像都包含微妙的相互连接的加性白色高斯噪声。
  • 我们引入了一种新的随机算法——SNIPS——可以从这些问题的后验分布中取样。该算法依赖于MMSE去噪器的可用性。
  • 我们展示了SNIPS在图像模糊、单图像超分辨率和压缩感知方面令人印象深刻的结果,所有这些都是高度噪声和病态的。

在深入研究这项工作的细节之前,我们应该提到,在Plug-and-Play-Prior(PnP)方法[53]和RED[39]及其许多后续文件(例如,[60、30、1、49、7、50、40、4])的背景下,已经提出了迭代使用高斯去噪器来处理一般线性逆问题。然而,PnP和RED都与我们的工作截然不同,因为它们不针对后验的采样,而是专注于MAP或MMSE估计。

Background

Langevin dynamics 算法[3, 38]提出使用 iterative transition 规则从概率分布 $p(x)$ 进行采样:

\[x_{t+1} = x_t + \alpha \nabla_{x_t} \log p(x_t) + \sqrt{2 \alpha}z_t \tag{2}\]

其中 $z_t \thicksim N(0, I)$ 并且 $\alpha$ 是一个合适的小常数。 加上的 $z$ 允许随机采样, 避免分布的最大化的崩溃。随机初始化,经过足够多的迭代,在一些温和的条件下,这个过程收敛到从想要的分布 $p(x)$ 采样样本。

[44]中报告的工作将上述算法扩展到 annealed Langevin dynamics。提出的退火用模糊的版本取代了 Eq. 2 中的分数函数,$\nabla_{\tilde x_t} \log p(\tilde x_t)$, 其中 $\tilde x_t = x_t + n$, 并且 $n \thicksim N(0, \sigma^2 I)$ 是注入的噪声。 核心想法是从非常高的噪声水平 $\sigma$ 开始,并逐渐将其降至接近零,同时使用取决于噪声水平的步长 $\alpha$。 这些改变使得算法更快地收敛以及更好的表现。[20] 通过使用 Miyasawa 的联系进一步发展了它, 得到:

\[\nabla_{\tilde x_t} \log p(\tilde x_t) = \frac{D(\tilde x_t, \sigma) - \tilde x_t}{\sigma^2} \tag{3}\]

其中,$D(\tilde x, \sigma) = E[x \mid \tilde x_t]$ 睡觉哦 MSE 的最小化 $E[|x - D(\tilde x, \sigma)|_2^2]$, 其通过一个去噪神经网络来估计。这有助于在 Langevin dynamics 中使用 denoisers 来替代得分函数。

当转向解决逆问题时,之前的工作建议使用退火的Langevin dynamics[20,46,21]或类似方法[15,18,42,26]从后验分布 $p(x \mid y)$ 中采样,用条件函数替换生成算法中使用的分数函数。事实证明,如果可以对观测形成提出限制性假设,那么条件分数是 tractable 的,因此将退火的Langevin过程推广到这些问题是可以实现的。事实上,在[44, 20, 46, 42, 26]中,对于 $H$ 的特定和简化选择,核心假设是 $y = Hx$,并且观测中没有噪声。[15,23]中的作品完全避免了这些困难,回到了原来的(非退火)Langevin方法,不可避免的代价是变得极慢。此外,他们的算法在逆问题上得到了证明,其中加性噪声被限制为非常弱。[21]中的工作范围更广,允许任意加性高斯白噪声,但将 $H$ 限制在去噪或 inpainting 的问题上。虽然所有这些作品都展示了高质量的结果,但目前没有明确的方法来推导方程1中提出的一般线性逆问题的模糊分数函数。下面,我们提出了这样的推导。

The Proposed Approach: Deriving the Conditional Score Function

Problem Setting

考虑一个从观测 $y = Hx + z$ 重构信号 $x \in R^N$ 的问题, 其中 $x \thicksim p(x)$ 并且 $p(x)$ 未知, $y \in R^M, H \in R^{M \times N}, M \leq B, z \thicksim N(0, \sigma_0^2I)$, $H$ 和 $\sigma_0$ 已知。我们的最终目标是从后验概率 $p(x \mid y)$ 采样。然而, 由于得分函数 $\nabla_x \log p(x \mid y)$ 无法得到,我们重定义目标, 从模糊的后验分布 $p(\tilde x \mid y)$ 采样,其中 $\tilde x = x + n, n \thicksim N(0, \sigma^2I)$, 噪声规模 $\sigma$ 从非常大开始减小到0。

采样应该从 SVD 域以便得到一个 tractable 的模糊的得分函数的导数。 因此我们考虑 $H$ 的奇异值分解 $H = U \Sigma V^T$, 其中 $U \in R^{M \times M}$ 并且 $V \in R^{N \times N}$ 是正交矩阵, $\Sigma \in R^{M \times N}$是个矩形对角矩阵, 其包含 $H$ 的奇异值, 表示为 ${s_j}{j=1}^M$, 以降序排列 $s_1 > s_2 > … > s{M-1} > s_M \geq 0$。 为了方便表示, 我们定义 $s_j = 0, j = M+1, …, N$。因此,我们注意到:

\[p(\tilde x \mid y) = p(\tilde x \mid U^\top y) = p(V^\top \tilde x \mid U^\top y) \tag{4}\]

Derivation of the Conditional Score Function