Abstract

我们设计了一系列图像分类架构，以在高速环境中优化准确性和效率之间的权衡。我们的工作利用了基于注意力的架构中的最新发现，这些架构在高度并行处理硬件上具有竞争力。我们重新审视了卷积神经网络广泛文献中的原则，并将其应用于 Transformer 模型，特别是具有递减分辨率的激活图。我们还引入了注意力偏置，一种在视觉变压器中整合位置信息的新方法。

因此，我们提出了LeViT：一种用于快速推理图像分类的混合神经网络。我们在不同的硬件平台上考虑了不同的效率测量，以最佳反映各种应用场景。我们的大量实验实验证实了我们的技术选择，并显示它们适用于大多数架构。总体而言，LeViT在速度/准确性权衡方面显著优于现有的卷积神经网络和视觉变压器。例如，在80%的ImageNet top-1准确率下，LeViT在CPU上的速度是EfficientNet的5倍。