MrD's Blog

我干了什么 究竟拿了时间换了什么

【深度学习】MCAN:Deep Modular Co-Attention Networks for Visual Question Answering

Abstract 视觉问题回答(VQA)要求对图像的视觉内容和问题的文本内容都有细粒度的同时理解。 因此,设计一个有效的 co-attention 模型,将问题中的关键词与图像中的关键对象关联起来,是VQA性能的核心。 到目前为止,大多数成功的 co-attention 学习尝试都是通过使用浅层模型实现的,而深度 co-attention 模型与浅层模型相比几乎没有改善。 这篇文章提出...

【深度学习】OPT: Open Pre-trained Transformer Language Models

Abstract 大型语言模型通常需要训练数十万天的计算时间,它们在 zero-shot 和 few-shot 学习方面表现出了非凡的能力。 考虑到它们的计算成本,如果没有大量的资金,这些模型很难复制。 对于少数通过api可用的,没有授权访问完整的模型权重,使它们难以研究。 这篇文章推出了 Open Pre-trained Transformer (OPT),这是一套仅解码器的预训练 ...

【深度学习】LoFTR: Detector-Free Local Feature Matching with Transformers

Abstract 这篇文章提出了一种新的图像局部特征匹配方法。 这篇文章建议先在粗级别上建立像素级密集匹配,然后在细级别上细化好的匹配,而不是依次进行图像特征检测、描述和匹配。 与使用 cost volume 来搜索对应关系的密集方法相比,我们使用transformer中的自注意力和交叉注意力层来获得以两幅图像为条件的特征描述符。 Transformer提供的全局感受野使该方法能够在低...

【深度学习】Pythia v0.1: the Winning Entry to the VQA Challenge 2018

# Abstract 这篇文章描述了 Facebook 人工智能研究(FAIR)的A-STAR团队在2018年VQA挑战赛中获胜的作品——Pythia v0.1。 这篇文章出发点是自底向上自顶向下(up-down)模型的模块化重新实现。 我们演示了通 过对模型架构和学习率调度进行细微但重要的更改,微调图像特征,并添加数据增强,我们可以显著提高VQA v2.0数据集上的 up-down ...

【深度学习】ClipCap: CLIP Prefix for Image Captioning

Abstract 图像标题是视觉语言理解中的一项基本任务,该模型对给定的输入图像预测一个文本信息标题。 这篇文章提出了一种解决此任务的简单方法。 使用CLIP编码作为标题的前缀,通过使用一个简单的映射网络,然后微调一个语言模型来生成图像标题。 最近提出的CLIP模型包含了丰富的语义特征,这些特征经过了文本语境的训练,使其更适合视觉语言感知。 关键思想是结合一个预训练的语言模型(GP...

【深度学习】Semisupervised Spectral Learning With Generative Adversarial Network for Hyperspectral Anomaly Detection

Abstract 基于背景分布估计的异常检测方法受非标注高光谱图像中异常光谱向量的限制,常受到异常污染的影响,导致估计精度降低,检测性能下降。 为了解决这一问题,这篇文章提出了一种基于生成对抗网络(GAN)的高光谱异常检测框架的半监督光谱学习(SSL)。 由于GAN具有较强的表征能力和对抗性训练优势,因此它被应用于半监督方式估计背景分布并获得初始光谱特征。 在该框架中,通过morph...

【深度学习】ECCV2022 workshop 竞赛汇总

Visual Inductive Priors for Data-Efficient Computer Vision https://vipriors.github.io/challenges/ ECCV’22 ChaLearn Seasons in Drift Challenge (track 1: day level) https://codalab.lisn.upsaclay.f...

【深度学习】Neural Discrete Representation Learning

Abstract 在无监督的情况下学习有用的表示仍然是机器学习的一个关键挑战。 这篇文章提出了一个简单而强大的生成模型来学习这些离散表示。 所提模型叫做矢量量化变分自编码器(VQ-VAE),在两个关键方面不同于VAEs: 编码器网络输出离散编码,而不是连续编码;先验是学习的,而不是静态的。 为了学习离散隐表征,我们引入了矢量量化(VQ)的思想。 使用VQ方法可以使模型规避 “pos...

【深度学习】UniT: Multimodal Multitask Learning with a Unified Transformer

Abstract 这篇文章提出UniT,一个统一的 Transformer 模型,可以同时学习不同领域的最突出的任务,从目标检测到自然语言理解和多模态推理。 基于 Transformer 编码器-解码器架构,UniT模型使用编码器对每个输入模态进行编码,并通过编码后的输入表示,使用共享解码器对每个任务进行预测,然后是特定任务的输出头。 整个模型是端到端联合训练的,每个任务都有损失。 ...

【深度学习】Training larger-than-memory PyTorch models using gradient checkpointing

在深度学习模型尺寸不断增长的时代,使用尖端技术的主要困难之一是将其加载到GPU上,毕竟,我们不能训练一个不能安装到你的设备上的模型。有各种各样的技术可以改善这个问题; 例如,分布式训练和混合精度训练。 在这篇文章中,我们将介绍另一种技术: gradient checkpointing。简而言之,gradient checkpointing 的工作原理是在反向传播的时间重新计算深度神经网络...