【深度学习】Faster R-CNN论文阅读

Posted by ShawnD on February 24, 2021

Abstrac

最新的物体检测网络依靠区域提议算法( region proposal algorithms)来假设物体的位置。SPPnet [1]和Fast R-CNN [2]之类的进步减少了这些检测网络的运行时间,提出了区域提议的计算是瓶颈。在这项工作中,我们引入了一个区域提议网络(RPN),该网络与检测网络共享整幅图像的卷积特征,从而实现了几乎免费的区域提议。RPN是一个全卷积的网络,可以同时预测每个位置的物体边界和物体得分。对RPN进行了端到端的训练,以生成高质量的区域提议,Fast R-CNN使用这些提议进行检测。通过共享RPN和Fast R-CNN的卷积特征,我们将RPN和Fast R-CNN进一步合并为一个网络——使用“注意力”机制, RPN组件告诉整个网络向哪看。对于非常深的VGG-16模型[3],我们的检测系统在GPU上的帧速率为5fps(包括所有步骤),同时在PASCAL VOC 2007、2012和2007上达到了最新的物体检测精度。 MS COCO数据集,每个图像仅包含300个提议。在ILSVRC和COCO 2015竞赛中,Faster R-CNN和RPN是多个赛道中第一名获胜作品的基础。代码已公开提供。

INTRODUCTION

区域提议方法(例如[4])和基于区域的卷积神经网络(R-CNN)[5]的成功推动了物体检测的最新进展。尽管基于区域的CNN在计算上很昂贵,如最初在[5]中开发的,但由于在[1],[2]提出的共享卷积,其成本已大大降低。最新的工作,Fast R-CNN [2],在忽略区域提议花费的时间时,使用非常深的网络[3]实现了接近实时的速度。现在,提议是最新检测系统中测试时间的计算瓶颈。区域提议方法通常依赖于便宜的特征和经济的推理方案。选择性搜索[4]是最流行的方法之一,它根据工程化的底层特征贪婪地合并超像素。然而,与高效的检测网络相比[2],选择性搜索的速度要慢一个数量级,在CPU上每张图片2秒。EdgeBoxes [6]当前提供建议质量和速度之间的最佳权衡,每张图像0.2秒。