On this page

    Abstract

    它在图像区域之间学习一个多级的关系表征, 在解码阶段使用一个网状的连接提取低级和高级特征。

    Introduction

    相比于之前的image caption 算法有两个创新点:

    主要贡献如下:

    Related work

    早期的方法基于简单模板的生成, 由目标检测的输出或者属性预测的输出填入。

    随着深度学习的发展, 大部分的计数使用RNN作为语言模型, 使用一个或多个卷积网络的输出作为语言生成的条件。

    在训练时, 开始阶段的方法是基于时间步的交叉熵训练, 强化学习的引入带来了极大的进步, 它使得使用不可微的评价指标来优化目标。

    在图像编码时, 将单层注意力机制应用于空间知识上, 起初使用卷积特征, 后来使用目标检测提取的图像区域。

    为了提高目标和它们之间关系的编码, Yao等人提出在图像编码阶段使用图卷积神经网络在目标间融合语义和空间关系。

    与此同时, Yang等人使用多模态图卷积神经网络将场景图加入视觉表征。

    Herdade等人对image captioning使用Transformer结构并且将检测的输入目标之间的几何关系融入进去。

    Li等人通过一个额外的 tagger 使用 Transformer 模型发觉视觉信息和额外的语义知识。

    Huang等人年引入一种注意力操作的拓展, 通过由上下文门控对最后参与的信息加权。

    Meshed-Memory Transformer

    见论文