Abstract
视觉问题回答(VQA)要求对图像的视觉内容和问题的文本内容都有细粒度的同时理解。
因此,设计一个有效的 co-attention 模型,将问题中的关键词与图像中的关键对象关联起来,是VQA性能的核心。
到目前为止,大多数成功的 co-attention 学习尝试都是通过使用浅层模型实现的,而深度 co-attention 模型与浅层模型相比几乎没有改善。
这篇文章提出了一种深度 Modular Co-Attention Network(MCAN),该网络由深度级联的 Modular Co-Attention(MCA) 层组成。
每个MCA层利用两个基本注意单元的模块化组合,对问题的self-attention 和 图像的 self-attention 以及图像的 question-guided-attention 进行建模。
在benchmark VQA-v2数据集上对MCAN进行定量和定性评价,并开展了广泛的消融研究,以探索MCAN有效性背后的原因。
实验结果表明,MCAN的性能明显优于以往的最先进技术。
Conclusion
这篇文章提出了一种用于VQA的深度 Modular Co-Attention 网络(MCAN)。
MCAN由级联的 modular co-attention 层组成,每个层由 self-attention 单元和 guided-attention 单元组成,协同模拟inra- 和 inter-modal 的相互作用。
通过使用编码器-解码器策略深度叠加 MCA 层,获得了一个深度 MCAN 模型,为VQA实现了新的最先进的性能。
-
Previous
【深度学习】OPT: Open Pre-trained Transformer Language Models -
Next
【深度学习】Airborne ObjectDetection Using Hyperspectral Imaging: Deep Learning Review