Optimizer

1	tf.train.GradientDescentOptimizer

1	tf.train.AdadeltaOptimizer

1	tf.train.AdagradOptimizer

1	tf.train.AdagradDAOptimizer

1	tf.train.MomentumOptimizer

1	tf.train.AdamOptimizer

1	tf.train.FtrlOptimizer

1	tf.train.ProximalGradientDescentOptimizer

1	tf.train.ProximalAdagradOptimizer

1	tf.train.RMSPropOptimizer

$\begin{aligned} &\mathrm{J}(\mathrm{W}): \text { 代价函教 }\\ &\nabla \mathrm{w} \mathrm{J}(\mathrm{W}): \text { 代价函数的梯度 }\\ &\eta \text {：学习率 } \end{aligned}$

SGD

$W=W-\eta \cdot \nabla w J\left(W ; x^{(i)} ; y^{(i)}\right)$

Momentum

$\begin{aligned} &\mathrm{Y}: \text { 动力，通常设置为0.9 }\\ &v_{t}=y v_{t-1}+\eta \nabla_{w} j(W)\\ &W=W-v_{t} \end{aligned}$

当前权值的改变会受到上一次权值改变的影响，类似于小球向下滚动的时候带上了惯性。这样可以加快小球的向下的速度。

NAG（Nesterov accelerated gradient）

$\begin{array}{l} v_{t}=\gamma v_{t-1}+\eta \nabla w J\left(W-\gamma v_{t-1}\right) \\ W=W-v_{t} \end{array}$

NAG在TF中跟Momentum合并在同一个函数tf.train.MomentumOptimizer中，可以通过参数配置启用。在Momentum中小球会盲目地跟从下坡的梯度，容易发生错误，所以我们需要一个更聪明的小球，这个小球提计算$W-\gamma v_{t-1}$可以表示小球下一个位置大概在哪里。从而我们可以提前计算下一个位置的梯度，然后使用到当前位置。

Adagrad

$\begin{array} &&i：代表第i个分类\\ &t：代表出现次数\\ &\epsilon：的作用是避免分母为0，取值一般为1e-8\\ &\eta ：取值一般为0.01 \\ &\mathrm{g}_{\mathrm{t},\mathrm{i}}=\nabla \mathrm{w}^{\mathrm{J}}\left(\mathrm{W}_{\mathrm{i}}\right)\\ &W_{t+1}=W_{t}-\frac{\eta}{\sqrt{\sum_{t^{\prime}=1}^{t}\left(g_{t^{\prime}, i}\right)^{2}+\epsilon}} \odot g_{t} \end{array}$

它是基于SGD的一种算法，它的核心思想是对比较常见的数据给予它比较小的学习率去调整参数，对于比较罕见的数据给予它比较大的学习率去调整参数。它很适合应用于数据稀疏的数据集（比如一个图片数据集，有10000张狗的昭片，10000张猫的照片，只有100张大象的昭片）。

Adagrad主要的优势在于不需要人为的调节学习率，它可以自动调节。它的缺点在于，随着迭代次数的增多，学习率也会越来越低，最终会趋向于0。

RMSprop

RMS（Root Mean Square）是均方根的缩写。

$\begin{array} &&\gamma：动力，通常设置为0.9\\ &n：取值一般为0.001\\ &E[g^2]_t：表示前t次的梯度平方的平均值\\ &\mathrm{g}_{\mathrm{t}}=\nabla \mathrm{w} \mathrm{J}(\mathrm{W}) \\ &E\left[g^{2}\right]_{t}=y E\left[g^{2}\right]_{t-1}+(1-\gamma) g^{2} t \\ &W_{t+1}=W_{t}-\frac{\eta}{\sqrt{E\left[g^{2}\right]_{t}+\epsilon}} \odot g_{t} \end{array}$

RMSprop借鉴了一些Adagrad的思想，不过这里RMSprop只用到了前$t-1$次梯度平方的平均值加上当前梯度的平方的和的开平方作为学习率的分母。这样RMSprop不会出现学习率越来越低的问题，而且也能自己调节学习率，并且可以有一个比较好的效果。

Adadelta

$\begin{array}{l} &\mathrm{g}_{\mathrm{t}}=\nabla \mathrm{w}{\mathrm{J}}(\mathrm{W}) \\ &\Delta \mathrm{W}_{\mathrm{t}}=-\frac{\mathrm{\eta}}{\sqrt{E\left[g^{2}\right]_{t}+\epsilon}} \odot g_{t} \\ &\Delta \mathrm{W}_{\mathrm{t}}=-\frac{\mathrm{\eta}}{R M S[\mathrm{g}]_{t}} \odot g_{t} \\ &\mathrm{W}_{\mathrm{t}+1}=\mathrm{W}_{\mathrm{t}}-\frac{\mathrm{RMS}[\Delta \mathrm{W}]_{t-1}}{\mathrm{RMS}[\mathrm{g}]_{t}} \end{array}$

使用Adadelta我们甚至不需要设置一个默认学习率，在Adadelta不需要使用学习率也可以达到一个非常好的效果。

Adam

$\begin{array} &&\beta_{1}: 一般取值 0.9 \\ &\beta_{2}: 一般取值0.999 \\ &\varepsilon: 避免分母为 0, 一般取值 10^{-8} \\ &\mathrm{m}_{\mathrm{t}}=\beta_{1} \mathrm{m}_{\mathrm{t}-1}+\left(1-\beta_{1}\right) \mathrm{g}_{\mathrm{t}} \\ &v_{t}=\beta_{2} v_{t-1}+\left(1-\beta_{2}\right) g^{2}_ t \\ &\hat{\mathrm{m}}_{\mathrm{t}}=\frac{\mathrm{m}_{\mathrm{t}}}{1-\beta_{1}^{\mathrm{t}}} \\ &\hat{v}_{\mathrm{t}}=\frac{v_{\mathrm{t}}}{1-\beta_{2}^{\mathrm{t}}} \\ &\mathrm{W}_{\mathrm{t}+1}=\mathrm{W}_{\mathrm{t}}-\frac{\eta}{\sqrt{\hat{v}_{t}}+\varepsilon} \hat{m}_{t} \end{array}$

就像Adadelta和RMSprop一样Adam会存储之前衰减的平方梯度，同时它也会保存之前衰减的梯度。经过一些处理之后再使用类似Adadelta和RMSprop的方式更新参数。

各种优化器对比

标准梯度下降法

标准梯度下降先计算所有样本汇总误差，然后根据总误差来更新权值。

缺点：大样本时每次更新取值都要很长时间。

随机梯度下降法

随机梯度下降随机抽取一个样本来计算误差，然后更新权值。

缺点：取值更新快，但是不一定都是往正确的方向更新，会产生比较多的噪点。

批量梯度下降法（常用）

批量梯度下降算是一种折中的方案，从总样本中选取一个批次（比如一共有10000个样本，随机选取100个样本作为一个batch），然后计算这个batch的总误差，根据总误差来更新权值。

邬

Optimizer优化器