Absract
为了真正理解视觉世界,我们的模型不仅应该能够识别图像,还应该能够生成图像。
最近从自然语言描述生成图像方面取得了令人兴奋的进展。
这些方法在有限的领域(如对鸟或花的描述)能给出令人惊叹的结果,但要忠实地再现包含许多物体和关系的复杂句子却很困难。
为了克服这一限制,这篇文章提出了一种从场景图生成图像的方法,实现了对对象及其关系的显式推理。
模型使用图卷积来处理输入 graph,通过预测对象的边界框和分割 mask 来计算场景布局,并通过级联网络将布局转换为图像。
该网络是对抗网络 与判别器对抗训练,以确保真实的输出。
Conclusion
这篇文章开发了一种端到端的方法来从场景图生成图像。
与主要的从文本描述生成图像的方法相比,从结构化的场景图而不是非结构化的文本生成图像,使该方法能够明确地推理对象和关系,并生成包含许多可识别对象的复杂图像。
-
Previous
【深度学习】Are Vision-Language Transformers Learning Multimodal Representations?A Probing Perspective -
Next
【深度学习】ArcFace: Additive Angular Margin Loss for Deep Face Recognition