Abstract
VisualBERT 由一组 tran是former 层堆叠而成, 其通过自注意力机制隐式对齐输入文本和输入图像的区域。
进一步在 image caption 数据上对预训练 VisualBert 提出了两个 visual-ground 语言模型目标。
在四个视觉语言任务上的实验表明, VisualBert 显著超过了之前的SOTA。
进一步的分析表明,Vi-sualBERT可以在没有任何明确监督的情况下,将语言元素与图像区域相结合
Conclusion
这篇文章提出了一种用于视觉语言联合表征的预训练模型, 叫做 VisualBERT。
尽管VisualBERT很简单, 它在四个任务上都有很强的表现。
进一步的分析表明,该模型使用注意机制以一种可解释的方式捕获信息。
未来考虑将 VisualBERT 拓展到仅视觉的任务上,比如场景图解析和场景识别。
在更大的数据集上预训练VisualBERT 也是一个方向。
-
Previous
【深度学习】UNIFYING ARCHITECTURES,TASKS, AND MODALITIES THROUGH A SIMPLE SEQUENCE-TO-SEQUENCELEARNING FRAMEWORK -
Next
【深度学习】X-LXMERT: Paint, Caption and Answer Questions with Multi-Modal Transformers