Abstract
这篇文章提出 DINO(DETR with Improved deNoising anchOr boxes),一种最先进的端到端目标检测器。
与之前类似DETR的模型相比,DINO通过使用对比方法进行去噪训练、用于先验框初始化的 mixed query selection 方法以及用于边界框预测的 look forward twice scheme,在性能和效率方面有所提高。
在具有 ResNet-50 主干和多尺度特征的COCO上,DINO在12个 epoch 中实现了49.4AP,在24个epoch中实现了51.3AP,与之前最好的类似DETR模型DN-DETR相比,分别显著提高了+6.0AP和+2.7AP。
DINO在模型大小和数据大小上都能很好地扩展。
在没有技巧的情况下,在使用 SwinL 主干对Objects365数据集进行预训练后,DINO 在 COCO val2017(63.2AP)和 test-dev(63.3AP)上都获得了最佳结果。
与排行榜上的其他模型相比,DINO显著减少了其模型大小和预训练数据大小,同时取得了更好的结果。
Conclusion
这篇文章提出了一种强大的端到端 Transformer 检测器DINO,具有 contrastive denoising training、mixed query selection 和 look forward twice,这显著提高了训练效率和最终检测性能。
因此,DINO在使用多尺度特征的12 epoch 和36 epoch 设置中都优于 COCO val2017 上所有以前基于ResNet-50的模型。
在改进的推动下,在更大的数据集上使用更强大的骨干训练DINO,并实现了新的技术水平,即COCO 2017测试开发的63.3 AP。
这一结果将类似DETR的模型作为主流检测框架,不仅因为它的新颖的端到端检测优化,还因为它的卓越性能。
-
Previous
【深度学习】Conditional DETR for Fast Training Convergence -
Next
【深度学习】OTA: Optimal Transport Assignment for Object Detection