Abstract

视觉分类可分为粗粒度分类和细粒度分类。

粗粒度的分类表示相似性较小的分类，如猫、狗的分类;细粒度的分类表示相似性较大的分类，如猫、鸟、交通工具的制造商或型号。

与粗粒度视觉分类不同，细粒度视觉分类通常需要专业专家对数据进行标记，这使得数据的成本更高。

为了应对这一挑战，许多方法提出了自动寻找最具判别性的区域，并使用局部特征提供更精确的特征。

这些方法只需要图像级的标注，从而降低了标注的成本。

然而，大多数这些方法需要两个或多个阶段的体系结构，并且不能端到端进行训练。

因此，这篇文章提出了一种新的即插即用的模块，它可以集成到许多常见的骨干网络中，包括基于 cnn 或基于 Transformer 的网络，以提供强区分区域。

该模块可以输出像素级特征图，并融合过滤后的特征以增强细粒度的视觉分类。

实验结果表明，该插件模块在CUB200-2011和NABirds上的精度分别提高到92.77%和92.83%。

Conclusion

这篇文章提出了一种新的即插即用模块，可以很容易地应用于流行的骨干网络，通过差异化来学习局部区域特征。

实验结果表明，该方法显著提高了细粒度视觉分类的准确性，并优于目前最先进的分类方法。