【深度学习】Are Vision-Language Transformers Learning Multimodal Representations?A Probing Perspective

Posted by ShawnD on March 8, 2022

Abstract

近年来, 由于视觉语言模型的发展, 联合文本-图像嵌入有了显著的提升。

尽管有这些进步,我们仍然需要更好地理解这些模型产生的表示。

这篇文章在视觉、语言和多模态层级上比较了预训练和微调表征。

为此,我们使用了一组 probing 任务来评估最先进的视觉语言模型的性能,并引入了专门用于多模态 probing 的新数据集。

这些数据集经过精心设计,以处理一系列多模态能力,同时最大限度地减少模型依赖偏差的可能性。

虽然结果证实了视觉语言模型在多模态水平上理解颜色的能力,但对于物体的位置和大小模型似乎更倾向于依赖文本数据的偏差。

在语义对抗的例子中,我们发现这些模型能够精确地查明细粒度的多模态差异。

最后,这篇文章指出,在多模态任务上对视觉-语言模型进行微调并不一定能提高其多模态能力。

Conclusion

这篇文章使用probing任务评估视觉语言模型:UNITER, LXMERT和ViLT。

这篇文章发现,尽管它们提取的句法信息比纯语言模型略少。

此外,他们还发现fast-rcnn功能似乎是视觉表现的一个限制因素。

至于他们的多模态能力,UNITER设法在一些概念上提取更好的多模态信息,比如颜色。

然而,所有模型都难以理解不太客观的概念,如位置和大小。

这篇文章指出,对于这些任务,VL模型对语言线索的过度依赖。

这强调了在不允许模型学习视觉信息的语言偏差的情况下, 使用更可控的数据集来评估多模态性能的重要性。

置于未来的工作, 在细粒度的多模态概念(如位置和大小)上调整VL的预训练以获得更好的多模态性能将是有趣的。