MrD's Blog

我干了什么 究竟拿了时间换了什么

【深度学习】ViLT:Vision-and-Language Transformer Without Convolution or Region Supervision

Abstract 视觉和语言预训练(VLP)提高了各种视觉和语言联合下游任务的性能。 目前的VLP方法严重依赖于图像特征提取过程,其中大多数涉及区域监督(如目标检测)和卷积架构(如ResNet)。 这些方法有两个问题: 效率/速度, 特征提取的过程所需的计算力大于多模态交互所需的算力 表达能力, 由于视觉表征表达能力的上限和预先定义的视觉词表。 这篇文章提出了一个最小的...

【深度学习】Translation-equivariant Image Quantizer for Bi-directional Image-Text Generation

Abstract 近年来,vector-quantized 图像建模在文本到图像的生成等生成任务中取得了令人印象深刻的性能。 然而, 这篇文章发现现在的 image quantizers 由于 aliasing 在 quantized 空间中不能满足平移不变性, 损害了下游任务 text-to-image 生成 和 image-to-text 生成的性能。 这篇文章没有专注于 anti-...

【深度学习】Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training

Abstract 视觉语言预训练(VLP)旨在从图像-文本对中学习多模态表示,并以微调的方式用于下游视觉语言任务。 主流的的VLP模型采用CNN-Transformer架构,该架构使用CNN embed 图像,然后将图像和文本使用 Transformer 对齐。 视觉内容之间的视觉关系在图像理解中起着重要作用,对VLP中的 inter-modal 对齐学习至关重要。 然而,由于局部感受...

【深度学习】ERNIE-VILG: UNIFIED GENERATIVE PRE-TRAINING FOR BIDIRECTIONAL VISION-LANGUAGE GENERATION

Abstarct 传统的图像-文本生成方法主要分别处理双向生成任务,侧重于设计针对任务的框架,以提高生成样本的质量和保真度。 近年来,视觉-语言的预训练模型极大地提高了图像-文本生成任务的性能,但针对文本-图像生成任务的大规模的预训练模型尚不完善。 这篇文章提出了ERNIE-ViLG,一个统一的基于 Transformer 模型的双向图像-文本生成的预训练框架。 基于 image q...

【深度学习】Be Specific, Be Clear: Bridging Machine and Human Captions by Scene-Guided Transformer

Abstract 自动生成图像的自然语言描述,即图像字幕,是多媒体理解的主要目标之一。 最近,深度神经网络在图像字幕中的成功伴随着基于区域的自下而上的注意特征。 基于区域的特征代表了局部区域的内容,缺乏对图像的整体理解,这对于更具体、更清晰的语言表达至关重要。 视觉场景感知可以促进整体理解,提供先验知识,生成具体清晰的物体说明、物体关系和整体图像场景。 这篇文章提出了一个场景引导的...

【深度学习】A Picture is Worth a Thousand Words: A Unified System for Diverse Captions and Rich Images Generation

Abstract 一个创造性的图像和文本生成人工智能系统,模仿人类的非凡能力,为用户提供多样化和全面的 caption 建议,以及丰富的图像创作。 在这项工作中,我们展示了这样一个人工智能创造系统,以产生不同的 caption 和丰富的图像。 当用户想象一个图像并将其与多个标题相关联时,我们的系统会绘制一个丰富的图像来反映所有的标题。 同样,当用户上传图片时,系统会用多种不同的标题来...

【深度学习】Kernelized Bayesian Softmax for Text Generation

Abstract 用于文本生成的神经模型在解码阶段需要一个 softmax 层和适当的词嵌入层。 大多数现有方法采用为每个词采用单个点 embedding。 然而, 一个词语可能根据上下文不同有多重含义, 这可能会带来混淆。 这篇文章提出一种新的可以用于文本生成的学习更好的 embeddings 的方法 KerBS。 KerBS 有两个优势: a) 它使有多个含义的词使用 embed...

【深度学习】Video-aided Unsupervised Grammar Induction

Abstract 我们研究了视频辅助语法归纳,它从无标记文本和相应的视频中学习一个contituency parser。 现有的多模态语法-语法归纳方法主要集中在从文本-图像对中学习语法,结果表明静态图像中的信息在语法归纳中是有用的。 然而,视频提供了更丰富的信息,不仅包括静态对象,还包括动作和状态变化,这对诱导动词短语很有用。这篇文章从视频中探索丰富的特征(如动作、对象、场景、音频、人...

【深度学习】VLMO:Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

Abstract 这篇文章提出了一个统一的视觉语言预训练模型(VLMO),该模型联合学习一个双编码器和一个带有模块化 Transformer 融合编码器。 具体来说,引入了 Mixture-of-Modality-Expert (MOME) Transformer,其中每个块包含一个 modality-specific expert 池和一个共享的自注意力层。 由于MOME建模的灵活...

【深度学习】Unified Contrastive Learning in Image-Text-Label Spac

Abstract 近年来,视觉识别是通过对人类标注的图像标签数据进行监督学习,或通过对图像-文本对语言-图像对比学习来学习的。 虽然有监督学习可以得到更判别性的特征, language-image 预训练表现出前所未有的 zero-shot 的能力。 这项工作引入一种新的公式, 通过结合两种数据源到一个公共 image-text-label 空间。 在这个空间中,提出了一种新的学习范...