Abstract

近年来，由于视觉语言模型的发展，联合文本-图像嵌入有了显著的提升。

尽管有这些进步，我们仍然需要更好地理解这些模型产生的表示。

这篇文章在视觉、语言和多模态层级上比较了预训练和微调表征。

为此，我们使用了一组 probing 任务来评估最先进的视觉语言模型的性能，并引入了专门用于多模态 probing 的新数据集。

这些数据集经过精心设计，以处理一系列多模态能力，同时最大限度地减少模型依赖偏差的可能性。

虽然结果证实了视觉语言模型在多模态水平上理解颜色的能力，但对于物体的位置和大小模型似乎更倾向于依赖文本数据的偏差。

在语义对抗的例子中，我们发现这些模型能够精确地查明细粒度的多模态差异。

最后，这篇文章指出，在多模态任务上对视觉-语言模型进行微调并不一定能提高其多模态能力。

Conclusion

这篇文章使用probing任务评估视觉语言模型:UNITER, LXMERT和ViLT。

这篇文章发现，尽管它们提取的句法信息比纯语言模型略少。

此外，他们还发现fast-rcnn功能似乎是视觉表现的一个限制因素。

至于他们的多模态能力，UNITER设法在一些概念上提取更好的多模态信息，比如颜色。

然而，所有模型都难以理解不太客观的概念，如位置和大小。

这篇文章指出，对于这些任务，VL模型对语言线索的过度依赖。

这强调了在不允许模型学习视觉信息的语言偏差的情况下，使用更可控的数据集来评估多模态性能的重要性。

置于未来的工作，在细粒度的多模态概念(如位置和大小)上调整VL的预训练以获得更好的多模态性能将是有趣的。