台大李宏毅机器学习——深度学习调参

深度学习调参技巧入门

深度学习有很多框架，个人最喜欢的是dmlc的MXNet还有PyTorch。keras是另外一个非常友好的框架，后台可以调用tensorflow，但是tensorflow本身不是一个非常友好的框架，所以有兴趣的可以自己看看，上手很快。

这里大概介绍深度学习炼丹的一些入门技巧。

之前提到，深度学习也是机器学习的一个特例，因此深度学习的过程也是设计模型，计算模型的好坏，选择一个最好的模型。

最基础的一个方法跟一般机器学习一样，先看在training上的效果，如果够好，再看在testing上的效果。但是这里有个不同，一般的机器学习基本上都可以在training上得到百分百正确的结果，例如决策树。但是深度学习并不一定能够在training上得到百分百正确。因此在训练深度学习的时候，不要一步到位只看testing的效果。

这里有入门的五个小技巧：

那么首先我们想一下，是否深度网络越深效果越好呢？答案是不一定的。举例而言，用全连接层和sigmoid函数训练mnist的时候，当层数加到很大的时候，训练效果可能就很不好了。

一般而言，如果我们的neuron用的是sigmoid函数，那么我们会发生这样的现象。这个现象的原因就是梯度消失 Vanishing Gradient。

所以，按照之前的反向传播更新参数的方法，靠近output layer的地方参数已经更新完毕，但是靠近input layer的地方还没train。用图形表示如下：

那sigmoid函数为什么会发生这样的事情呢？我们不用严格去计算\(\frac{\partial l}{\partial w}\)，按照导数的定义，我们可以知道，\(\frac{\partial l}{\partial w} = \frac{\Delta l}{\Delta w}\)。所以我们把这种思想代入sigmoid作为激活函数的神经网络当中，我们可以发现当第一层的\(w_1\)发生很大的变化，那么\(z_1 = w_1 \cdot x + b_1\)发生很大的变化，但是经过sigmoid函数后，这个变化被缩小了，因此\(\sigma(z_1)\)是小于\(z_1\)的，而随着层数的增加，这样的影响就会不断加强。这就导致了在input layer地方的梯度会变得很小。也就是梯度消失的问题。

那么理论上而言，用dynamic的learning rate也是可以解决这样的问题的，但是直接将sigmoid函数替换掉来得更干脆一点。

现在有一个很常用的激活函数是ReLu（Recitified Linear Unit）。ReLu有很多好处，一个是求导更快；一个是Hinton提出无数个sigmoid叠加可以得到ReLu；当然，最重要的是ReLu可以解决梯度消失的问题。ReLu的函数可以表示如下： \[ a = \begin{cases} 0, &\mbox{if }z<0 \\ z, &\mbox{if }z>0 \end{cases} \] 这样的一个激活函数不是一个连续可导的函数，那么梯度下降是依赖于导数的，能不能求解呢？

事实上，因为ReLu是分段可导的，而且在实际模型中，经过ReLu计算的神经元，每一层会有有一半的神经元是0，因此，如果现在一个神经网络的激活函数用的是ReLU，那么我们可以将整个神经网络表示为：

那我们可以将那些\(0\)的neuron直接不要掉，得到一个更瘦的网络。那因为现在的网络变成了线性的神经元，因此每次传递的梯度没有经过缩放，因此不会有梯度消失的问题。

ReLu有各种各样的变型，一种是Leaky ReLu： \[ a = \begin{cases} 0.01z, &\mbox{if }z<0 \\ z, &\mbox{if }z>0 \end{cases} \] 还有一个种是parametric ReLu： \[ a = \begin{cases} \alpha z, &\mbox{if }z<0 \\ z, &\mbox{if }z>0 \end{cases} \]

那事实上我们可以让网络自己决定每个neuron要用什么样的激活函数。这样的结构是Goodfellow提出的maxout network。maxout network跟之前的网络不一样的地方是，原先下图中我们得到的\(5\)，\(7\)这些数字都是要经过activation function变成其他值的。但是在maxout network里面，我们会把这些值变成一个group，然后去group里面的比较大的一个值作为output。这个事情，其实跟CNN里面的max pooling一样。

这个网络中，哪几个神经元要结合，每个group中放多少个element需要事先设定好。由此我们可以发现，ReLu其实是maxout的一种特殊情况，而ReLu的其他变种也是，都是maxout的真子集。那事实上maxout并不能学习非线性的activation function，它只能学习分段线性的激活函数。

那我们如果element放的越多，maxout network学到的激活函数分段就越多。从某种程度上而言，maxout network比较强的地方就是，不同的样本喂进去以后，通过更新\(w\)，可能得到ReLu，也可能得到Leaky ReLu这样的activation function，也可能是其他的activation function。也就是说maxout network是一个会学习的网络。

现在的问题是，这样一个分段的函数是否开进行梯度下降呢？实践上而言，这是可行的。因为在maxout network中，每一次传递的都是最大的那个值，那其余的神经元不对loss做贡献，因此每一次传递的都是一个linear的结果，那梯度下降是可以对linear的函数求解的。这里不用担心有一些\(w\)不会被训练到，因为不同的batch喂进去的时候，不同的\(w\)会被影响到。示意图如下：

在这个网络中，\(z_2^1\)没被训练到，但是如果用一笔新的数据，就有可能训练到这个值。

另外如果不调整激活函数，我们就可以使用adagrad这样的方法。现在回顾一下adagrad，adagrad更新参数的方法是： \[ w^{t+1} = w^t - \frac{\eta}{\sqrt{\sum g_i^2}} g^t \]

Hinton 提出了一种新的更新方法，RMSProp，更新步骤如下： \[ w^{t+1} = w^t - \frac{\eta}{\sigma^t} g^t, \sigma^t = \sqrt{\alpha (\sigma^{t-1})^2 + (1-\alpha) (g^t)^2} \] 这是对Adagrad的一种变形。

此外，我们也可以用物理的方法来考虑一下梯度下降。在物理世界中，一个小球从山丘向下滚动的时候，会因为惯性的关系继续滚动下去，越过saddle point，甚至可能越过一些小坑和小坡。因此我们也可以在梯度下降中加入一个类似的概念。示意如下：

一般而言，这样的方法能躲过saddle point，但是不一定能够躲过local minimum。现在如果我们考虑了monentum，那么我们的迭代方式就是： \[ w^{t+1} = w^t + v^{t+1} \\ v^{t+1} = \lambda v^t - \eta g^{t+1} \] 我们可以看到，实际上用momentum的更新方法，我们实际上是考虑了之前每一次的移动。现在流行的Adam这个方法，实际上结合了RMSProp和momentum两种。

那上面两种方法都是针对training进行优化的。现在看另外三种对testing进行优化的方法。

第一种是early stopping。 Early stopping就是当模型在validation set上没有提升的情况下，就提前停止模型训练。当然，前提是模型在training上面可以正常收敛。

第二种是regularization。Regularization有两种，一种是L1 regularization，另一种是L2 regularization。

L2 regularization表示如下： \[ L'(\theta) = L(\theta) + \lambda \frac{1}{2}||\theta||_2, \quad ||\theta||_2 = (w_1)^2 + (w_2)^2 + \dots + (w_n)^2 \] 那么我们更新参数的方法就是： \[ w^{t+1} = w^t - \eta \frac{\partial L'}{\partial w} = w^t - \eta (\frac{\partial L}{\partial w} + \lambda w^t) = (1-\eta \lambda)w^t - \eta \frac{\partial L}{\partial w} \] 由于后面还跟了一个当前的梯度，因此不用担心这样的更新方法会导致所有的参数迭代到0。

那L1 regularization表示如下： \[ L'(\theta) = L(\theta) + \lambda ||\theta||_1, \quad ||\theta||_1 = |w_1| + |w_2| + \dots + |w_n| \] 所以我们更新参数的方法就是： \[ w^{t+1} = w^{t} - \eta \frac{\partial L'}{\partial w} = w^t - \eta(\frac{\partial L}{\partial w} + \lambda \text{sign}(w^t)) \] 所以用L1，我们的参数每一次都会向0移动一个\(\lambda \eta\)。

实际上因为deep learning在初始化参数的时候，都会选择接近0的位置开始，因此实际上regularization在深度学习当中的作用可能还不如early stopping来得有用。

最后一种就是dropout。dropout就是随机丢掉一部分的neuron，每一次mini-batch进入网络，都要重新dropout一些网络，也就是每一个batch的网络实际上是不一样的。从某种程度而言，这也是一种集成算法。

这里需要注意的是，我们在training的时候需要进行dropout，但是在testing的时候是不进行dropout的。那这个时候，我们在training学到的\(w\)，在testing上就要将\(w\)乘以\(1-p\)，其中\(p\)是dropout的概率。

那为什么要做这样的动作呢？之前我们说过，dropout是也是一种ensemble，ensemble方法如下：

那dropout实际上是ensemble的一个变种。因为每一个neuron都有可能被drop，假设有m个neuron，那么我们理论上有可能得到\(2^m\)种网络，而这些网络之间有些参数是共用的。

那如果我们用ensemble的方法，那么我们就是将所有网络的结果进行平均。但是dropout是直接将所有的参数乘以\(1-p\)，然后直接预测。而神奇的地方就在于，这样的方法得到结果跟ensemble的结果是接近的。

举例而言，如下图：

我们假设右上角就是我们用dropout训练好的模型，那么这个模型所有可能出现的network是左边的四种。假设每个neuron被dropout的概率一样，都是0.5，那么这四种结构出现的概率就是一样的，因此这四个结构的average就是右下角的结果，刚好就是training的weight乘以\(1-p\)。

那实际上，这个事情理论上只有在activation function是linear的时候才能work，nonlinear的模型实际上是不work的。但是神奇的就是，在真实使用的时候，nonlinear的模型，一样也可以使用。不过一般来说，如果activation function是linear的时候，dropout的效果会比较好。

以上就是深度学习入门级的调参技巧。还是散沙的一句话，深度学习已经变成实验科学了，多动手是王道。