【深度学习】DALL·E: Creating Images from Text

Posted by ShawnD on April 18, 2021

DALL·E 是GPT-3的120亿参数版本,经过训练,可以使用文本图像对数据集从文本描述生成图像。我们发现它具有多种功能,包括创建动物和物体的拟人化版本,以似是而非的方式组合不相关的概念,渲染文本,并对现有图像进行转换。

我们发现DALL·E有时能够将一些人类活动和衣物转移到动物和无生命的物体,如食物。

我们发现DALL·E如何将人体的部分适应于动物身上很有趣。例如,当被要求画一个擤鼻涕、喝拿铁或骑独轮车的白萝卜时,DALL·E通常会在合适的位置画出手帕、手和脚。

GPT-3表明,语言可以用来指导一个大型神经网络执行各种文本生成任务。Image GPT展示了同一类型的神经网络也可以用来生成高保真度的图像。我们扩展了这些发现,表明现在可以通过语言来操纵视觉概念。