On this page

    Abstract

    目标检测, 场景图生成和区域描述是场景理解任务不同的语义层次:

    这篇文章利用跨语义层次的相互联系, 提出一种新的端到端网络(Multi-level Scene Description Network, MSDN), 同时解决三个视觉任务。

    object, phrase 和 caption 首先基于它们的空间位置和语义联系使用动态图对齐。然后使用一个 feature refine 结构通过 graph 在三个语义层次传递信息。

    Conclusion

    这篇文章以场景理解为目标,以端到端的方法通过一个深度神经网络联合建模三个视觉任务: 目标检测, 视觉关系检测和区域描述。

    这三个任务在不同语义层级上是紧密相连的。这篇文章提出一个 Multi-level Scene Description Network(MSDN) 网络利用它们之间的相互联系以更好地理解图像。MSDN 使用一个动态图建立不同语义含义的区域之间的联系。

    该图提供一种对不同任务的特征融合的新的方式。结果表明联合推理过程对三个任务都有提升。