【深度学习】VLGrammar: Grounded Grammar Induction of Vision and Language

Posted by ShawnD on April 8, 2022

Abstract

认知语法认为语言语法的习得是以视觉结构为基础的。

语法是自然语言的一种基本表示形式,它也普遍存在于视觉中,用来表示部分-整体的层次结构。

这项工作在一个联合学习框架中研究视觉和语言的基础语法归纳。

具体来说,这篇文章提出了一种利用复合概率上下文无关语法(compound PCFGs)同时归纳语言语法和图像语法的视觉-语言语法方法。

这篇文章提出了一种新的对比学习框架来指导两个模块的联合学习。

为了为基础语法归纳任务提供一个基准,这篇文章收集了一个大规模的数据集PARTIT,其中包含了人类手写的关于描述3D对象的部分级语义的的句子。

在PARTIT数据集上的实验表明,VLGrammar在图像语法归纳和语言语法归纳方面的性能优于所有基线。

学习到的 VLGrammar 有利于相关的下游任务。

其中,图像无监督聚类准确率提高了30%,在图像检索和文本检索中表现良好。

值得注意的是,归纳语法表现出了优越的泛化能力,因为它很容易泛化到没见过的种类。

Conclusion

这篇文章提出了一种利用 compound PCFGs 共同归纳视觉语法和语言语法的框架VLGrammar。收集了一个大规模的数据集PARTIT,用于对这个新任务进行基准测试。

实验结果表明,VLGrammar在视觉和语言的语法归纳方面表现良好,对无监督部分聚类和图像-文本检索等下游任务有很大的帮助,并且易于推广到没有见过的类别。

这项工作的一个限制是图像语法是在 part 序列上定义的。这种做法消除了图像丰富的2D结构。一个可能的解决方案是直接在2D图像上定义空间语法,我们把它留给未来的工作。