Abstract

扩散模型最近被证明可以生成高质量的合成图像，特别是当与一种指导技术相结合时，可以平衡多样性和保真度。

探索了CLIP引导和无分类器引导的两种基于文本条件的图像合成。

我们发现，后者更受人类评估者的青睐，因为它既具有真实感，又具有描述相似度，而且常常产生逼真的样本。

使用无分类器引导的具有35亿参数的以文本为条件的扩散模型比需要CLIP重排序的DALL-E 更受人们喜爱。

我们发现模型支持微调，可以用于 image inpainting，赋能强大的文本驱动的图像编辑。

Safety Considerations

我们的模型有能力产生假的但是看起来很真实的图像，并允许不熟练的用户快速地对现有的图像进行令人信服的编辑。因此，在没有保护措施的情况下发布我们的模型将大大降低制造假信息或 Deepfake 的门槛。

虽然我们的模型通常可以以复杂的方式组合完全不同的概念，但有时它无法捕获描述非常不寻常的对象或场景的某些提示。

我们的未优化模型在单个A100 GPU上采样一个图像需要15秒。这比相关GAN方法的采样要慢得多，后者在单个前向通道中生成图像，因此更适合用于实时应用。