11.4 中的方法在解决优化问题时比梯度下降更有效
11.5 中的方法通过向量化显著提高了效率，在一个minibatch中使用更大的观测集合。这是多机、多GPU、并行处理的关键
11.6 增加了一个机制，通过聚合历史梯度加速收敛
11.7 对每个坐标进行缩放，是一个计算效率高的preconditioner
11.8 从学习率调整解耦每个坐标的缩放

Adam 是一个将所有这些技术结合到一起的学习算法。正如预期的那样，这是一种非常流行的算法，是用于深度学习的更健壮和有效的优化算法之一。它并非没有问题，在有些情况下Adam会由于不好的方差控制发散。后来的工作提出了一种 hotfix 的Adam，叫做Yogi，他解决了这些问题。

The Algorithm

Adam的一个关键部分是使用指数权重 moving averages(也叫做 leaky averaging) 来取得梯度当前的动量和二阶矩：

\[v_t = \beta_1 v_{t-1} + (1 - \beta_1) g_t\] \[s_t = \beta_2 s_{t-1} + (1 - \beta_2) g_t^2\]

这里 $\beta_1$ 和 $\beta_2$ 是非负的权重参数。通常选择 $\beta_1 = 0.9$ 和 $\beta_2 = 0.999$。方差估计比动量项移动得慢得多。注意，如果我们初始化 $v_0 = s_0 = 0$，我们一开始倾向于更小的值。这可以通过 $\sum_{i=0}^t \beta^i = \frac{1 - \beta^t}{1 - \beta}$ 重规范化项来解决。相应的规范化状态变量为：

\[\hat v_t = \frac{v_t}{1 - \beta_1^t} \text{ and } \hat s_t = \frac{s_t}{1 - \beta_2^t}\]

有了正确的估计，我们现在可以写出更新方程了。首先，我们以一种非常类似于RMSProp的方式重新缩放梯度来获得：

\[g_t' = \frac{\eta \hat v_t}{\sqrt{\hat s_t} + \epsilon}\]

不和 RMSProp 一样，我们的更新使用动量 $\hat v_t$ 而不是梯度本身。此外，缩放使用 $\frac{1}{\sqrt{\hat s_t} + \epsilon}$ 取代 $\frac{1}{\sqrt{\hat s_t + \epsilon}}$。前者在实践中可能稍微好一些，因此与RMSProp存在偏差。通常我们选择 $\epsilon = 10^{-6}$ 以在数值稳定性和保真度做权衡。

现在我们可以计算更新：

\[x_t \leftarrow x_{t-1} - g_t'\]

回顾Adam的设计非常清晰。动量和缩放在状态变量中清晰可见。它们相当奇特的定义使我们 debias terms(这可以通过稍微不同的初始化和更新条件来修复)。

Yogi

Adam 的一个问题是当 $s_t$ 中的二阶矩 blow up时，即便在凸设定下，它也不能收敛。我们重写Adam更新如下：

\[s_t \leftarrow s_{t+1} + (1 - \beta_2)(g_t^2 - s_{t-1})\]

当 $g_t^2$ 有高方差或者更新稀疏时， $s_t$ 可能快速地忘记过去的值。一个修复是使用 $g_t^2 \odot sgn(g_t^2 - s_{t-1})$ 替换 $g_t^2 - s_{t-1}$。现在，更新的大小不再取决于偏差的大小。Yogi的更新如下：

\[s_t \leftarrow s_{t-1} + (1 - \beta_2) g_t^2 \odot sgn(g_t^2 - s_{t-1})\]

作者还建议在更大的初始批处理中初始化动量，而不仅仅是初始的点级别估计。

On this page

The Algorithm

Yogi