【深度学习】Unified Visual-Semantic Embeddings: Bridging Vision and Language with Structured Meaning Representations

Posted by ShawnD on March 21, 2022

Abstract

这篇文章提出一种联合 视觉-语义嵌入(VSE) 以学习视觉表征和文本语义的联合空间。

模型统一不同层级的概念的嵌入: 目标、属性、关系和全场景。

将文本语义视为不同语义成分, 比如目标和关系的组合; 使用不同图像区域对齐它们的嵌入。

其提出一种对比学习方法用于从图像-描述对中有效地学习细粒度的对齐。

证明了统一VSE在跨模态检索任务上优于基线;语义覆盖的加强提高了模型抵御文本域对抗攻击的鲁棒性。

此外,模型增强了视觉线索的使用,以准确地解决新句子中的词依赖关系。

Conclusion

这篇文章提出一种联合 视觉-语义嵌入 方法以一种因子分解的方式学习一个视觉和语言的联合表征空间: 不同文本语义成分的层级包括对齐到图像区域的目标和关系。

为语义组件提出一种对比学习方法用于有效地学习细粒度对齐。

引入强制性的语义覆盖: 每个 caption embedding 应该覆盖所有句子中的语义成分。

统一VSE在处理多模态检索任务时表现出优越性,能够有效防御文本域对抗攻击。