【深度学习】A Comprehensive Survey of Scene Graphs: Generation and Application

Posted by ShawnD on March 1, 2022

Abstract

场景图是对场景的结构化表示,能够清晰地表达场景中的对象、属性以及对象之间的关系。

随着计算机视觉技术的不断发展,人们已不再满足于简单地检测和识别图像中的物体; 进而,人们期待对视觉场景有更高层次的理解和推理。例如,给定一幅图像,我们不仅要检测和识别图像中的对象,还要了解对象之间的关系(视觉关系检测),并根据图像内容生成文本描述(图像字幕)。

或者,我们可能希望机器告诉我们图像中的小女孩正在做什么(视觉回答(VQA)),或者甚至从图像中删除狗,以及找到类似的图像(图像编辑和检索),等等。

这些任务要求对图像视觉任务有更高层次的理解和推理。场景图是理解场景的强大工具。

因此,场景图引起了大量研究者的关注,而相关研究往往是跨模态的、复杂的、发展迅速的。

然而,目前还没有较为系统的场景图研究。为此,这篇文章对目前的场景图研究进行了全面的调查。

具体来说,首先总结了场景图的通用定义, 然后对场景图的生成方法(SGG) 和带有先验知识的 SGG 提出一个综合性的讨论。

然后总结了场景图的主要应用和常见的被使用的数据集。

Conclusion

场景图作为一种对场景进行高层次理解和推理分析的强大工具,越来越受到研究者的重视。

然而,对场景图的研究往往是跨模态的、复杂的和快速发展的。

这篇文章基于 SGG 的方法将现有的 SGGs 进行分类并且介绍了带有额外先验知识的SGGs。

然后对 SGG 的应用进行了全面的调研。

最后详细讨论了场景图未来的发展方向。