【深度学习】InfoGAN论文阅读

Posted by ShawnD on March 22, 2021

Abstract

这篇论文描述了InfoGAN, 一个生成对抗网络的信息理论的拓展,它能够以一种完全无监督的方式学习解耦表征。 InfoGAN是一个生成对抗网络,也可以最大化一小部分隐变量和观测值之间的相互信息。我们得出了可以有效优化的互信息目标的下限。具体来说, InfoGAN在MNIST数据集上成功解耦出数字形状的手写风格, 从3D渲染图像的光照中解耦出姿势, 在SVHN数据集上从中心数字解耦出背景数字。 它还可以在CelebA脸部数据集上发现视觉概念,包括发型,眼镜的有无以及情绪。实验表明,InfoGAN学习的可解释表示形式与通过现有监督方法学习的表示形式具有竞争性。

Figure 2: 在MNIST上操控隐编码:在所有隐编码操控图中,我们将使用以下约定:每个隐编码从左到右变化,而其它隐编码和噪声是固定的。不同的行对应于固定隐编码和噪声的不同随机样本。例如,在(a)中,一列包含c1中同一类别的五个样本,一行显示了c1中10个可能类别的生成图像,并固定了其他噪声。在(a)中,c1中的每个类别在很大程度上对应于一个数字类型;在(b)中,在没有信息正则化的情况下训练的GAN上c1的变化会导致无法解释的变化;在(c)中,c2的较小值表示左倾斜数字,而较高的值表示右倾斜数字; 在(d)中,c3平滑地控制宽度。 由于种类编码本质上是无序的,因此我们出于可视化目的对(a)进行了重新排序。

Figure 3: 在3D人脸上操控隐编码:我们显示了学习的连续隐变量对输出的影响,它们的值从-1到1变化。在(a)中,我们显示出连续的隐编码之一始终能捕获不同形状的人脸方位角; 在(b)中, 连续的编码控制俯仰角;在(c)中, 连续的编码控制光照的变化; 在(d)中, 连续的编码学习在宽脸和窄脸之间进行插值, 同时保留其他视觉特征。对于每个因素,我们给出了5次随机运行中最类似于先前监督结果的表示[7],以提供直接比较。

Figure 4:在3D椅子上操控隐编码: 在(a)中,我们显示了连续编码在保留椅子形状的同时捕获了椅子的姿势,尽管学习的姿势映射在不同类型上有所不同;在(b)中,我们表明连续编码可以可选择地学习捕获不同椅子类型的宽度,并在它们之间平滑地插值。

Figure 5: 在SVHN上操控隐编码。 在(a)中,我们证明了其中一个连续编码捕获了光照的变化,即使在数据集中每个数字只存在一个光照条件;在(b)中,显示了一个种类编码来控制中心数字的上下文:例如,在第2列中,数字9(部分)出现在右侧,而在第3列中,数字0出现在右侧,这表明InfoGAN已经学会将中心数字与其上下文分开。

Figure 6: 在CelebA上操控隐编码:(a) 结果表明,种类编码可以通过离散化这种连续性的变化来捕获人脸的方位角; 在(b)中,种类码的子集用于表示眼镜的存在;(c)显示不同的发型,大致从头发少到道法多;(d)表现出情绪的变化,大致从严肃到快乐。