On this page

    Abstract

    这篇文章提出了一个统一的视觉语言预训练模型(VLMO),该模型联合学习一个双编码器和一个带有模块化 Transformer 融合编码器。

    具体来说,引入了 Mixture-of-Modality-Expert (MOME) Transformer,其中每个块包含一个 modality-specific expert 池和一个共享的自注意力层。

    由于MOME建模的灵活性,预训练的VLMO可以作为视觉-语言分类任务的融合编码器,或用于有效的图像-文本检索的双编码器。

    此外,这篇文章提出了一种分阶段的预训练策略,该策略有效地利用了除图像-文本对外的大规模纯图像和纯文本数据。

    实验结果表明,VLMO在VQA和NLVR2等视觉语言任务上都取得了较好的效果。

    Conclusion

    这篇文章提出一个联合视觉语言预训练模型VLMo, 其使用一个共享的 MoME Transformer Backbone 联合学习双向编码器和一个融合编码器。

    引入一组 modality experts 对特定的模态信息进行编码,并使用共享的自注意力模块对不同的模态进行对齐。

    MoME 的联合预训练是的模型可以作为双编码器用于视觉语言检索, 或者融合编码器用于跨模态交互或者分类任务。

    利用大规模的纯图像和纯文本语料库的阶段式预训练大大提高了视觉语言的预训练。

    VLMo在各种视觉语言基准测试上的表现优于以前的最先进的模型。

    未来将从以下几个方面对VLMo进行改进: