On this page

    Abstract

    提出了一种叫做Inception的深度卷积神经网络结构, 在ILSVRC14中用于分类和检测。

    网络结构的特点是提升了网络内部计算资源的利用率。

    保持计算预算为常量, 增加网络的深度和宽度。

    为了提升质量,使用了两种方法:Hebbian principle和多尺度处理。

    Introduction

    GoogLeNet使用比两年前的网络少于12倍的参数量,取得了显著提升的准确率。

    目标检测的最大收益不仅来自更大模型或更深模型的使用,还有深度结构和传统计算机视觉的协同, 比如R-CNN。

    在测试时,将计算预算设置为150万次乘和加的操作。

    这篇文章专注于深度神经网络在计算机视觉中网络结构的效率, 叫做Inception, 它的名字来自Network in Network这篇文章。

    deep有两种不同的含义:

    这种结构在ILSVRC2014分类和检测挑战上得到验证, 它显著提升了SOTA的表现。

    Ralated Work

    受到视觉皮层的神经科学模型的启发, 使用不同大小的滤波器来处理不同的尺度, 与Inception模型相似。

    与两层固定的深度模型不同, Inception中所有的滤波器都是学习得到的。

    Inception层重复多次, 产生了22层深的GoogLeNet模型。

    Network in Network在卷积神经网络中可以看做1x1卷积层后跟着ReLU激活, 这使得它在CNN pipeline中非常容易集成进去。

    1x1卷积有两个目的:

    这使得在没有显著地性能惩罚的情况下, 不仅增加深度, 还可以增加宽度。

    现在流行的物体检测方式是R-CNN, 它将整个检测问题分解为两个子问题:

    他们在物体检测上的这两个阶段作了一些增强, 比如在bounding box回归时的multi-box预测

    Motivation and High Level Considerations

    增加网络的深度和增加网络的宽度是最简单和安全的方式提升模型质量, 尤其是在有大量标注训练数据的情况下。

    但是这种简单的方案有两个主要的缺点:

    解决这两个问题的方法是将全连接变成稀疏连接的结构。模仿生物系统, 如果数据集的概率分布可以由一个大的,非常稀疏的深度神经网络表示, 则可以通过分析最后一层的激活的相关统计量,逐层构建最佳网络拓扑。 聚集具有高度相关输出的神经元。

    Architectural Details

    我们需要找出最优的局部结构, 然后在空间上重复它。

    一层接一层的构造方法, 分析最后一层的相关统计量, 并将其聚类为具有高相关性的单元组:

    为了避免patch对齐的问题, Inception结构的前身限制卷积核大小为1x1, 3x3和5x5, 这种决策不是必要的, 而是为了方便。

    这意味着所有这些层的输出滤波器组拼接成一个单个输出向量形成下一阶段的输入。

    池化操作对SOTA卷积神经网络的成功是必要的, 这意味着在每个阶段添加一个池化可以带来额外好的影响。

    由于Inception模块互相在顶部叠加, 它们的输出相关统计数据不同。 高层捕获更抽象的特征, 它们的空间关注应该减小, 因此当我们到更高层时, 3x3和5x5卷积的比例应该减小。

    一个大问题, 即便是适中数量的5x5卷积在卷积层的顶层也是非常昂贵的, 这个问题在池化单元加入后更加严重, 它们输出滤波器的数量等于前一阶段滤波器的数量:

    体系结构的第二个想法

    通常Inception网络有各个Inception模块堆叠而成, 偶尔会有步长为2的最大池化层减半分辨率。

    出于训练时的显存效率, 在高层使用Inception模块, 在低层使用传统卷积。

    这个结构的一个主要的好处是它可以显著增加每个阶段的单元数, 而不会导致计算复杂性急剧增加:

    GoogLeNet

    所有的卷积,包括Inception模块, 使用ReLU激活。

    在我们的网络中,感受野的尺寸是224x224, RGB色彩通道减去均值。

    “#3x3 reduce” 和 “#5x5 reduce” 表示 表示在3x3和5x5卷积之前使用的1x1滤波器数量。

    在pool proj可以看到在build-in max-pooling之后投影层的1x1的滤波器数量。

    在这个任务上相对浅层网络的强大表现表明 由中间层产生的特征非常具有判别性。

    通过在中间层添加一个辅助分类器, 我们希望在分类的较低阶段鼓励判别, 增加反向传播的梯度, 以及提供额外的正则化。

    这些分类器采用更小的卷积网络的形式在Inception(ra)和Inception(4d)模块的输出顶层。

    在训练阶段, 它们的loss乘以一个折扣权重加到总loss上(权重为0.3), 预测阶段,抛弃辅助网络。

    在边上的额外网络的结构, 包括辅助分类器, 如下: