【深度学习】Video-aided Unsupervised Grammar Induction

Posted by ShawnD on April 12, 2022

Abstract

我们研究了视频辅助语法归纳,它从无标记文本和相应的视频中学习一个contituency parser。

现有的多模态语法-语法归纳方法主要集中在从文本-图像对中学习语法,结果表明静态图像中的信息在语法归纳中是有用的。

然而,视频提供了更丰富的信息,不仅包括静态对象,还包括动作和状态变化,这对诱导动词短语很有用。这篇文章从视频中探索丰富的特征(如动作、对象、场景、音频、人脸、OCR和语音),以最近的复合PCFG模型(Kim et al., 2019)为基准。

进一步提出了一个多模态复合PCFG模型(MMC-PCFG)来有效地聚合这些来自不同模态的丰富特征。

MMC-PCFG经过端到端训练,在三个基准测试(即DiDeMo、YouCook2和MSRVTT)上优于每个单模态和先前的SOTA,证实了利用视频信息进行无监督语法归纳的有效性。

Conclusion

在这项工作中,我们提出了一个新的任务,称为视频辅助无监督语法归纳。

这篇文章旨在利用对齐的视频句子对对语法归纳模型进行改进,以解决当前基于图像的语法归纳方法只考虑静态图像中的物体信息,缺少视觉中重要的动词相关信息的缺陷。

此外,这篇文章提出了多模态复合概率上下文无关语法(MMC-PCFG)来有效地整合从不同模态提取的视频特征,以引入更准确的语法。

在三个数据集上的实验证明了该方法的有效性。