【CVPR 2023】EVA:Exploring the Limits of Masked Visual Representation Learning at Scale

Posted by ShawnD on August 7, 2024

Abstract

我们推出了EVA,一个以视觉为中心的基础模型,旨在通过仅使用公开可访问的数据来探索视觉表示的极限。

EVA 是一个预训练的标准视觉 Transformer(ViT),其任务是重建被 mask 的图像-文本对齐的视觉特征,这些特征是根据可见的图像块进行条件生成的。

通过这一前置任务,我们可以高效地将EVA扩展到十亿个参数,并在广泛的代表性视觉下游任务中创下新纪录,如图像识别、视频动作识别、目标检测、实例分割和语义分割,而无需大量监督训练。

此外,我们观察到,在EVA扩展过程中,量变引起了迁移学习性能的质变,这在其他模型中并不常见。

例如,在具有挑战性的多词汇实例分割任务中,EVA取得了巨大进步:我们的模型在LVIS数据集(包含一千多个类别)和COCO数据集(仅包含八十个类别)上几乎达到了相同的最先进性能。

除了纯粹的视觉编码器之外,EVA还可以作为一个以视觉为中心的多模态枢纽,将图像和文本连接起来。

我们发现,从EVA初始化一个大型CLIP的视觉塔,可以极大地稳定训练过程,并且在使用更少样本和计算资源的情况下,优于从头开始训练的对比模型,为扩展和加速多模态基础模型的昂贵训练提供了新方向。