【深度学习】Image Generation from Scene Graphs

Posted by ShawnD on March 9, 2022

Absract

为了真正理解视觉世界,我们的模型不仅应该能够识别图像,还应该能够生成图像。

最近从自然语言描述生成图像方面取得了令人兴奋的进展。

这些方法在有限的领域(如对鸟或花的描述)能给出令人惊叹的结果,但要忠实地再现包含许多物体和关系的复杂句子却很困难。

为了克服这一限制,这篇文章提出了一种从场景图生成图像的方法,实现了对对象及其关系的显式推理。

模型使用图卷积来处理输入 graph,通过预测对象的边界框和分割 mask 来计算场景布局,并通过级联网络将布局转换为图像。

该网络是对抗网络 与判别器对抗训练,以确保真实的输出。

Conclusion

这篇文章开发了一种端到端的方法来从场景图生成图像。

与主要的从文本描述生成图像的方法相比,从结构化的场景图而不是非结构化的文本生成图像,使该方法能够明确地推理对象和关系,并生成包含许多可识别对象的复杂图像。