Abstract
视觉分类可分为粗粒度分类和细粒度分类。
粗粒度的分类表示相似性较小的分类,如猫、狗的分类;细粒度的分类表示相似性较大的分类,如猫、鸟、交通工具的制造商或型号。
与粗粒度视觉分类不同,细粒度视觉分类通常需要专业专家对数据进行标记,这使得数据的成本更高。
为了应对这一挑战,许多方法提出了自动寻找最具判别性的区域,并使用局部特征提供更精确的特征。
这些方法只需要图像级的标注,从而降低了标注的成本。
然而,大多数这些方法需要两个或多个阶段的体系结构,并且不能端到端进行训练。
因此,这篇文章提出了一种新的即插即用的模块,它可以集成到许多常见的骨干网络中,包括基于 cnn 或基于 Transformer 的网络,以提供强区分区域。
该模块可以输出像素级特征图,并融合过滤后的特征以增强细粒度的视觉分类。
实验结果表明,该插件模块在CUB200-2011和NABirds上的精度分别提高到92.77%和92.83%。
Conclusion
这篇文章提出了一种新的即插即用模块,可以很容易地应用于流行的骨干网络,通过差异化来学习局部区域特征。
实验结果表明,该方法显著提高了细粒度视觉分类的准确性,并优于目前最先进的分类方法。
-
Previous
【深度学习】ML-Decoder: Scalable and Versatile Classification Head -
Next
【深度学习】TreeLSTM:Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks