【深度学习】Fast R-CNN

Posted by ShawnD on November 24, 2022

Abstract

本文提出了一种快速的基于区域的卷积网络方法(Fast R-CNN)用于目标检测。

Fast R-CNN以之前的工作为基础,使用深度卷积网络对目标提议进行高效分类。

与之前的工作相比,Fast R-CNN采用了几项创新来提高训练和测试速度,同时提高检测精度。

Fast R-CNN 训练非常深的 VGG16 网络比 R-CNN 快9倍,测试时速度快 213 倍,并在PASCAL VOC 2012上实现了更高的mAP。

与SPPnet相比,Fast R-CNN训练VGG16快3倍,测试速度快10倍,更准确。

Fast R-CNN在Python和 C++ 中实现(使用Caffe)

Fast R-CNN architecture and training

图1说明了 Fast R-CNN 架构。 Fast R-CNN网络将整个图像和一组目标提案作为输入。网络首先使用几个卷积层(conv)和最大池化层处理整个图像,以生成卷积特征图。然后,对于每个目标提议,感兴趣的区域(RoI)池化层从特征图中提取一个固定长度特征向量。每个特征向量被输入一系列全连接的(fc)层,最终分支为两个输出层:一个在 $K$ 目标类别上产生 softmax 概率估计,外加一个“背景”类,另一个层为每个 $K$ 目标类输出四个实值数字。

The RoI pooling layer

RoI池化层使用最大池化将任何有效感兴趣的区域内的特征转换为具有固定空间范围 $H \times W$ 的小特征图。其中H和W是任何特定 RoI 的层超参数。在这篇文章中,RoI是进入卷积特征图的矩形窗口。每个 RoI 被定义为一个四元组 $(r, c, h, w)$, 其指定了左上角坐标 $(r, c)$ 和 它的高和宽 $(h, w)$。

Conclusion

这篇文章提出了Fast R-CNN,这是对 R-CNN 和 SPPnet 的干净快速更新。

除了报告最先进的检测结果外,作者还介绍了详细的实验,作者希望这些实验能提供新的见解。

特别值得注意的是,稀疏的目标提议似乎提高了检测器的质量。

这个问题(及时)太贵了,过去无法调查,但对Fast R-CNN来说很实用。

当然,可能还有尚未发现的技术允许密集的边界框执行,以及稀疏的提案。

这些方法如果被开发,可能有助于进一步加速目标检测。