Abstract
这篇提出了一种利用预训练语言模型先验语言知识的image caption模型,叫做VisualGPT。
提出了SRAUs模块 平衡使用图片中的视觉信息和来自预训练语言模型的先验语言信息。
Introduction
半监督的方法收集image-caption对可能产生不正确的训练数据; 从互联网上爬取的数据不能覆盖特定领域的数据, 比如X光图像。
预训练语言模型通过自监督学习可以获得丰富的语言和语义知识。
比较了MSCOCO 和 WikiText-2 的词性分布。 发现, MSCOCO有75%的名词,但是只有14%的动词。在image caption中有效地使用预训练语言模型, 需要小心的平衡从预训练获得的语言知识和视觉输入信息。
主要有以下两点贡献:
- 提出的结构将文本模态的权重快速应用到跨模态任务中。
- SRAUs 不仅可以平衡学习视觉和文本模态的特征, 还不容易落入零梯度的区域
Related Work
早期的方法集中在将提取的目标、属性和关系填入模板。
使用目标区域编码图像被证明有效(Bottom-up feature)。
强化学习使得可以使用不可微的评价指标优化模型。
Feng 等人提出不使用配对的image-caption 监督 来进行 无监督captioning。
Kim 等人通过从辅助的不配对的 image-caption 数据中学习提高数据效率。
Background on Transformer
传统的transformers, encoder只有最后一层的输出会被使用。 Meshed-Memory transformers 中 encoder 的所有层都会通过相同的 编码器解码器 注意力。
AoA 模块可以用来在cross-attention后融合视觉和语言信息。
VisualGPT
假设 “人”、“卡车”、“狗”等视觉词模型需要依赖于视觉信息。而限定词或者连接词仅需要依赖于语言知识。
-
Previous
【d2l】Sequence to Sequence Learning -
Next
【深度学习】Meshed-Memory Transformer for Image Captioning