【深度学习】Maximum Likelihood Training of Score-Based Diffusion Models

Posted by ShawnD on April 6, 2023

Abstract

基于分数的扩散模型通过逆转将数据扩散到噪声的随机过程来生成样本,并通过最大限度地减少分数匹配损失的加权组合来训练。

基于分数的扩散模型的对数似然可以通过与 continuous normalizing flows 的联系来计算,但对数似然并不通过分数匹配损失的加权组合直接优化。

我们表明,对于特定的加权方案,目标上界是负对数似然,从而实现基于分数的扩散模型的近似最大似然训练。

我们实证地观察到,最大似然训练始终如一地提高了跨多个数据集、随机过程和模型架构的基于分数的扩散模型的似然。

我们最好的模型在 CIFAR-10 和 ImageNet $32 \times 32$ 上实现了 2.83 和 3.76 bit/dim 的负对数似然,没有任何数据增强,与这些任务上最先进的自回归模型相当。

Introduction

基于分数的生成模型[44、45、48]和扩散概率模型[43、19]最近在一些任务中实现了最先进的样本质量,包括图像生成[48、11]、音频合成[5、27、37]和形状生成[3]。两个模型家族都用一系列噪声分布来扰动数据,并通过学习将这条路径从噪声反向到数据来生成样本。通过随机微积分,这些方法可以统一到一个单一的框架[48],我们在本文中将其称为基于分数的扩散模型。

基于分数的扩散模型框架[48]涉及使用随机微分方程(SDE)将数据分布逐渐扩散到给定的噪声分布,并学习该 SDE 的时间反转以生成样本。至关重要的是,反向时间 SDE 有一个闭式表达式,该表达式完全取决于扰动数据分布的时间依赖梯度场(又称分数)。通过训练一个神经网络(称为基于分数的模型[44,45]),以分数匹配损失[23,56,46]的加权组合作为目标,可以有效地估计这个梯度场。基于分数的扩散模型的一个关键优势是,它们可以转换为 continuous normalizing flows (CNFs)[6,15],从而允许使用数值 ODE 求解器进行可处理的似然计算。与普通 CNF 相比,基于分数的扩散模型的训练效率更高。这是因为训练 CNF 的最大似然目标要求每个优化步骤都运行昂贵的 ODE 求解器,而训练基于分数的模型的分数匹配损失的加权组合则不需要。然而,与最大似然训练不同,尽量减少分数匹配损失的组合并不一定导致更好的似然值。由于更好的似然对包括压缩[21,20,51],半监督学习[10],对抗纯化[47]以及与基于似然的生成模型进行比较的应用很有用,我们为基于分数的扩散模型寻求一个训练目标,该模型与分数匹配一样有效,但也促进了更高的似然。

我们表明,通过轻微修改分数匹配损失的加权组合,可以很容易地获得这样的目标。我们的理论表明,通过特定的加权选择,我们称之为似然加权,分数匹配损失的组合实际上是负对数似然的上限。我们进一步证明,当我们基于分数的模型对应于某个反向时间 SDE 的真实时间依赖梯度场时,这个上限会变得紧密。使用似然加权会增加我们目标的方差,我们通过引入基于重要性采样的方差还原技术来抵消这一点。我们的界限类似于在变分自编码框架[26,39]中用于训练隐变量模型的ELBO,可以被视为[43]的连续时间推广。

通过我们的似然加权,我们可以最大限度地减少分数匹配损失的加权组合,以对基于分数的扩散模型进行近似最大似然训练。与之前工作中的权重[48]相比,我们不断改进多个数据集、模型架构和SDE的似然值,仅略微降低 FID[17]。此外,我们在负对数似然的上限允许进行 variational dequantization[18]的训练,我们在CIFAR-10上达到 2.83 bit/dim,在ImageNet $32 \times 32$ [55]上达到 3.76 bit/dim 的负对数似然,没有数据增强。我们的模型提出了 normalizing flows 的第一个实例,这些实例实现了与最先进的自回归模型相当的似然。