Abstarct
本文开发了一个基于条件扩散模型的图像到图像转换的统一框架,并在四项具有挑战性的图像到图像转换任务上评估了该框架,即着色、绘画、裁剪和JPEG恢复。
我们对图像到图像扩散模型的简单实现在所有任务上都优于强大的 GAN 和回归基线,无需特定于任务的超参数调优、架构定制或任何辅助损失或复杂的新技术。
我们揭示了去噪扩散目标中的 L2 与 L1 损失对样本多样性的影响,并通过实证研究证明了自注意力在神经架构中的重要性。
重要的是,我们倡导基于 ImageNet 的统一评估协议,其中包含人类评估和样本质量分数(FID、Inception Score、预训练的 ResNet-50 的分类准确性以及针对原始图像的感知距离)。
我们预计这种标准化的评估协议将在推进图像到图像的翻译研究中发挥作用。
最后,我们表明,多任务扩散模型的性能与特定任务的专家模型一样好或更好。
Palette
扩散模型通过迭代去噪过程将标准高斯分布的样本转换为实验数据分布的样本。条件扩散模型使去噪过程以输入信号为条件。图像到图像扩散模型是 $p(y \mid x)$ 形式的条件扩散模型,其中 x 和 y 都是图像,例如,x 是灰度图像,y 是彩色图像。这些模型已应用于图像超分辨率。我们研究了图像对图像扩散模型在一系列广泛任务中的一般适用性。
有关扩散模型的详细处理,请参阅附录A。这里我们简单介绍一下去噪损失函数。 给定 $x$ 和噪声尺度 $\gamma$,用 $x$ 生成图像 $y$, 我们生成一个噪声版本的 $\tilde y$, 并且训练一个神经网络 $f_\theta$ 来去噪 $\tilde y$。
\[E_{(x, y)}E_{\epsilon \thicksim N(0, I)}E_\gamma \| f_\theta(x, \sqrt{\gamma} y + \sqrt{1 - \gamma} \epsilon, \gamma) - \epsilon \|_p^p \tag{1}\]之前的工作建议使用 $L_1$ 范数, 然而标准公式基于 $L_2$ 范数。我们在下面仔细进行消融试验,并分析范数选择的影响。我们发现,与 $L_2$ 相比,$L_1$ 产生的样本多样性要低得多。虽然 $L_1$ 可能有用,但为了减少某些应用中的潜在幻觉,在这里,我们采用 $L_2$ 来更忠实地捕获输出分布。
Architecture 调色板使用U-Net架构[Ho等人2020],并受到最近作品启发的几项修改[Dhariwal和Nichol 2021;Saharia等人。2021年;Song等人。2021]。网络架构基于[Dhariwal和Nichol 2021]的 $256 \times 256$ class-conditional U-Net 模型。我们的结构和他们的结构之间的两个主要区别是 (i) 没有类条件 (ii) 通过 concat 的额外的条件。