On this page
☰
Abstract
本文表明,masked autoencoders(MAE)是计算机视觉的可扩展自监督学习者。
MAE方法很简单:我们 mask 输入图像的随机 patch,并重建缺失的像素。
它基于两个核心设计。
首先,我们开发了一个非对称编码器-解码器架构,其编码器仅在可见的 patch 子集(没有掩码 token)上运行,以及一个轻量级解码器,该解码器从隐表示和 mask tokens 重建原始图像。
其次,我们发现,mask 高比例的输入图像,例如75%,会产生一个非平凡和有意义的自监督任务。
耦合这两种设计使我们能够高效、有效地训练大型模型:我们加速训练(3倍或更多)并提高准确性。
我们的可扩展方法允许学习能很好地泛化的高容量模型:例如,在仅使用ImageNet-1K数据的方法中,vanilla ViT-Huge模型实现了最佳精度(87.8%)。
下游任务中的迁移性能优于监督预训练,并表现出有希望的扩展行为。