Abstract

在这项工作中，我们引入了一种名为 SNIPS 的新型随机算法，该算法从任何线性逆问题的后验分布中采样样本，其中假设观察结果被加性白色高斯噪声污染。

我们的解决方案结合了 Langevin dynamics 和 Newton 的想法，并利用了预训练的最小均方误差（MMSE）高斯去噪器。

所提出的方法依赖于后验分数函数的复杂推导，该函数包括退化算子的奇异值分解（SVD），以获得所需采样的 tractable 迭代算法。

由于其随机性，该算法可以为相同的噪声观测生成多个高感知质量样本。

我们展示了所提出方法的图像去模糊、超分辨率和压缩感知范式的能力。

我们表明，产生的样本锐利、详细且与给定的观测结果一致，它们的多样性暴露了正在解决的逆问题中固有的不确定性。

Introduction

图像处理领域的许多问题可以转换为噪声线性逆问题。这一系列任务包括去噪、inpainting、去模糊、超分辨率、压缩感知和许多其他图像恢复问题。一个一般的线性逆问题被提出为：

\[y = Hx + z \tag{1}\]

我们的目标是从其观测 $y$ 中恢复信号 $x$，通过线性退化算子 $H$ 和加性高斯白噪声给出 $z \thicksim N(0, \sigma_0^2 I)$。在这项工作中，我们假设 $H$ 和 $\sigma_0$ 都是已知的。

多年来，开发了许多策略、算法和基础统计模型来处理图像恢复问题。许多经典尝试的一个关键因素是先验，旨在规范逆过程并产生视觉上令人愉悦的结果。在探索的各种选项中，我们提到了 sparsity-inspired 的技术[13，55，11]， local Gaussian-mixture modeling[57，63]，以及 non-local self-similarity 的方法[6，9，36，51]。最近，随着深度学习技术的出现，从 $y$ 到 $x$ 端到端地估计，在各种线性逆问题中产生了最先进的结果，如去噪[25、59、61、52]、去模糊[22、48]、超分辨率[10、17、54]和其他任务[29、28、19、16、37、58]。

尽管上述技术取得了明显的成功，但许多图像恢复算法仍然有一个关键的缺点：在严重退化的情况下，大多数恢复算法往往会产生缺乏细节的重建。事实上，大多数图像恢复技术都寻求一种重建，以尽量减少恢复的图像 $\hat x$ 和未知的原始图像 $x$ 之间的均方误差。当退化严重，信息不可逆转地丢失时，图像重建成为一个高度不利的问题，这意味着许多可能的清晰图像可以解释给定的观测。MMSE解决方案平均了所有这些候选解决方案，是给定 $y$ 的 $x$ 后验条件均值，导致在大多数实际案例中丢失精细细节的图像。[5]中最近报道的一项工作表明，重建算法必然会受到 perception-distortion 权衡的影响，即目标最小化 $\hat x$ 和 $x$ 之间的误差（在任何度量中）必然伴随着感知质量的降低。因此，只要我们坚持设计旨在实现最小MSE（或其他距离）的恢复算法的倾向，就只能期待有限的感知改进。

当感知质量成为我们的首要目标时，解决逆问题的策略必然会改变。更具体地说，解应该专注于从后验分布 $p(x \mid y)$ 而不是其条件均值生成样本。最近，有人提出了两种这样的方法——基于 GAN 的采样和 Langevin 采样。生成对抗网络（GAN）在生成逼真的图像方面取得了令人印象深刻的效果（例如，[14，35]）。GAN可用于解决逆问题，同时生成高质量的图像（例如[2，31，34]）。这些求解器旨在生成一组与观测结果一致的多样化输出图像，同时与干净样本的分布保持一致。基于GAN的逆问题算法的一个主要缺点是它们倾向于（如[2，31，34]中实践）进行无噪声观测，这是实践中很少满足的条件。一个例外是[33]中报告的工作，它调整了一个条件的GAN，使其成为随机去噪器。

从后验采样的第二种方法，也是我们在本文中要关注的方法，是基于Langevin dynamics。这种核心迭代技术通过利用分数函数的可用性——概率密度函数对数的梯度[38，3]，从给定分布中采样。[44, 20, 46]中报告的工作利用退火 Langevin dynamics 方法进行图像合成和解决无噪声逆问题。他们的合成算法依赖于MMSE高斯去噪器（作为神经网络给出）来近似逐渐模糊的分数函数。在处理逆问题时，由于无噪音观测假设，条件评分仍然易于处理和可管理。

本文涉及的问题如下：如何推广上述基于 Langevin-based 工作线来处理线性逆问题，如方程1中观测是噪声的？这个问题的部分和有限的答案已经在[21]中给出了图像去噪和绘画任务。本工作概括了这些（[44，20，46，21]）结果，并引入了从任何给定噪声线性逆问题的后验分布中采样的系统方法。这种扩展并不简单，由于两个主要原因：（i）degradation operator H 的参与，这给重建的图像和噪声观测之间建立关系带来了困难；以及（ii）观测和合成退火的 Langevin 噪声之间的复杂联系。我们提出的解决措施是通过运算符 H 的奇异值分解（SVD）对观测方程进行 decorrelation，该分解将观测之间的依赖性解耦，使每个观测值都可以通过适应的迭代过程解决。此外，我们将要构建的退火噪声定义为观测噪声本身的一部分，以促进条件分数函数的建设性推导。

根据早期的工作[44，20，46，21]，我们的算法用随机噪声图像初始化，逐渐收敛到重建的结果，同时遵循对数后验梯度的方向，使用MMSE去噪器估计。那些非零奇异值的部分首先纯粹依赖于观测值，然后过渡到包含基于去噪器的先验信息。至于涉及零奇异值的项，其相应的项要经历一个基于仅先验分数函数的纯合成过程。请注意，去噪器混合了演变的样本中的值，从而混合了梯度的影响。我们的推导包括位置相关步长向量的分析表达式，从牛顿的优化方法中汲取灵感。这稳定了算法，并证明对其成功至关重要。

我们以下将我们的算法称为SNIPS（Solution of Noisy Inverse Problems Stochastically）。请注意，当我们从后验分布 $p(x \mid y)$ 中采样时，同一输入上 SNIPS 的不同运行必然会产生不同的结果，所有这些都是给定逆问题的有效解。这不应该令人惊讶，因为病态意味着同一数据有多种可行的解，正如在超级分辨率[31, 2, 34]中已经提出的那样。我们演示了关于图像去模糊、单图像超分辨率和压缩感知的SNIPS，所有这些都包含不可忽视的噪声，并强调了结果的高感知质量、其多样性及其与MMSE估计的关系。

总而言之，本文的贡献有三个方面：

对于一般噪声逆问题，我们提出了模糊的后验得分函数的复杂推导，其中观测和目标图像都包含微妙的相互连接的加性白色高斯噪声。
我们引入了一种新的随机算法——SNIPS——可以从这些问题的后验分布中取样。该算法依赖于MMSE去噪器的可用性。
我们展示了SNIPS在图像模糊、单图像超分辨率和压缩感知方面令人印象深刻的结果，所有这些都是高度噪声和病态的。

在深入研究这项工作的细节之前，我们应该提到，在Plug-and-Play-Prior（PnP）方法[53]和RED[39]及其许多后续文件（例如，[60、30、1、49、7、50、40、4]）的背景下，已经提出了迭代使用高斯去噪器来处理一般线性逆问题。然而，PnP和RED都与我们的工作截然不同，因为它们不针对后验的采样，而是专注于MAP或MMSE估计。

Background

Langevin dynamics 算法[3, 38]提出使用 iterative transition 规则从概率分布 $p(x)$ 进行采样：

\[x_{t+1} = x_t + \alpha \nabla_{x_t} \log p(x_t) + \sqrt{2 \alpha}z_t \tag{2}\]

其中 $z_t \thicksim N(0, I)$ 并且 $\alpha$ 是一个合适的小常数。加上的 $z$ 允许随机采样，避免分布的最大化的崩溃。随机初始化，经过足够多的迭代，在一些温和的条件下，这个过程收敛到从想要的分布 $p(x)$ 采样样本。

[44]中报告的工作将上述算法扩展到 annealed Langevin dynamics。提出的退火用模糊的版本取代了 Eq. 2 中的分数函数，$\nabla_{\tilde x_t} \log p(\tilde x_t)$，其中 $\tilde x_t = x_t + n$, 并且 $n \thicksim N(0, \sigma^2 I)$ 是注入的噪声。核心想法是从非常高的噪声水平 $\sigma$ 开始，并逐渐将其降至接近零，同时使用取决于噪声水平的步长 $\alpha$。这些改变使得算法更快地收敛以及更好的表现。[20] 通过使用 Miyasawa 的联系进一步发展了它，得到：

\[\nabla_{\tilde x_t} \log p(\tilde x_t) = \frac{D(\tilde x_t, \sigma) - \tilde x_t}{\sigma^2} \tag{3}\]

其中，$D(\tilde x, \sigma) = E[x \mid \tilde x_t]$ 睡觉哦 MSE 的最小化 $E[|x - D(\tilde x, \sigma)|_2^2]$，其通过一个去噪神经网络来估计。这有助于在 Langevin dynamics 中使用 denoisers 来替代得分函数。

当转向解决逆问题时，之前的工作建议使用退火的Langevin dynamics[20，46，21]或类似方法[15，18，42，26]从后验分布 $p(x \mid y)$ 中采样，用条件函数替换生成算法中使用的分数函数。事实证明，如果可以对观测形成提出限制性假设，那么条件分数是 tractable 的，因此将退火的Langevin过程推广到这些问题是可以实现的。事实上，在[44, 20, 46, 42, 26]中，对于 $H$ 的特定和简化选择，核心假设是 $y = Hx$，并且观测中没有噪声。[15，23]中的作品完全避免了这些困难，回到了原来的（非退火）Langevin方法，不可避免的代价是变得极慢。此外，他们的算法在逆问题上得到了证明，其中加性噪声被限制为非常弱。[21]中的工作范围更广，允许任意加性高斯白噪声，但将 $H$ 限制在去噪或 inpainting 的问题上。虽然所有这些作品都展示了高质量的结果，但目前没有明确的方法来推导方程1中提出的一般线性逆问题的模糊分数函数。下面，我们提出了这样的推导。

The Proposed Approach: Deriving the Conditional Score Function

Problem Setting

考虑一个从观测 $y = Hx + z$ 重构信号 $x \in R^N$ 的问题，其中 $x \thicksim p(x)$ 并且 $p(x)$ 未知， $y \in R^M, H \in R^{M \times N}, M \leq B, z \thicksim N(0, \sigma_0^2I)$, $H$ 和 $\sigma_0$ 已知。我们的最终目标是从后验概率 $p(x \mid y)$ 采样。然而，由于得分函数 $\nabla_x \log p(x \mid y)$ 无法得到，我们重定义目标，从模糊的后验分布 $p(\tilde x \mid y)$ 采样，其中 $\tilde x = x + n, n \thicksim N(0, \sigma^2I)$，噪声规模 $\sigma$ 从非常大开始减小到0。

采样应该从 SVD 域以便得到一个 tractable 的模糊的得分函数的导数。因此我们考虑 $H$ 的奇异值分解 $H = U \Sigma V^T$，其中 $U \in R^{M \times M}$ 并且 $V \in R^{N \times N}$ 是正交矩阵， $\Sigma \in R^{M \times N}$是个矩形对角矩阵，其包含 $H$ 的奇异值，表示为 ${s_j}{j=1}^M$，以降序排列 $s_1 > s_2 > … > s{M-1} > s_M \geq 0$。为了方便表示，我们定义 $s_j = 0, j = M+1, …, N$。因此，我们注意到：

\[p(\tilde x \mid y) = p(\tilde x \mid U^\top y) = p(V^\top \tilde x \mid U^\top y) \tag{4}\]

【深度学习】SNIPS: Solving Noisy Inverse Problems Stochastically

Abstract

Introduction

Background

The Proposed Approach: Deriving the Conditional Score Function

Problem Setting

Derivation of the Conditional Score Function

CATALOG

FEATURED TAGS

FRIENDS