台大李宏毅机器学习——回归

机器学习就是寻找一个函数来解决某一类问题，回归就是预测一个实数的方法。

假设我们要预测神奇宝贝的CP值，我们用 \(x\) 来表示一只神奇宝贝。用 \(x_{cp}\) 表示CP值，用 \(x^i\) 表示 \(i\)th 神奇宝贝。

如果我们想解决这样一个问题，我们可以参照下面的步骤：

Step1. 假设影响神奇宝贝CP值的真实函数是 \(y = b + w \cdot x_{cp}\)，而集合 \(\{f_1, f_2, \dots \}\) 是我们的模型。理论上这个集合包含无数多个函数。这个函数假设 CP 值只受原来 CP 值的影响。一般而言，我们用 \(y = b + \sum w_i \cdot x_i\), \(x_i\) 表示所有的特征。

Step2. 我们需要找一个评价标准来评价我们模型的好坏。在这个例子中，我们可以用 MSE(Mean Square error)。 \(MSE = \sum (y_i - \hat{y}_i)^2\)。习惯上我用 \(y\) 表示真实值，\(\hat{y}\) 表示预测值。这一点跟视频中不太一样，不过只是个标记而已，并不影响理解。实际上有很多类似 MSE 的方程用来衡量预测值与实际值的差距，我们称之为 Loss function。那么第一步中的MSE可以写作 \[L(f) = \sum (y^n - f(x^n))^2 = \sum (y^n - (w \cdot x^n + b))^2.\]

Step3. 现在我们只需要找到损失函数最小的一个假设 \(f\)。这个例子中我们要做的就是 \[\arg \min L(w, b) = \sum (y^n - (w \cdot x^n + b))^2.\] 这个函数可以用最小二乘来直接解决，但是通常实践上我们用梯度下降来做。我们记损失函数为\(L(w, b)\)，而且只有一个参数\(w\).

首先，我们随机初始化一个 \(w^0\)
其次，计算 \(\frac{\partial{L}}{\partial{w}}|_{w=w^0}\).
第三，更新 \(w\)。 \(w^1 = w^0 - \eta \frac{\partial{L}}{\partial{w}}|_{w=w^0}\), \(\eta\) as learning rate.
重复上面三个步骤直到 \(\frac{\partial{L}}{\partial{w}}|_{w=w^n} = 0\).

事实上梯度下降是一个典型的贪心算法，很容易停在saddle point或者局部最优解上。通常损失函数非常复杂的时候会这样（当然，理论上会这样，实际上会比这个更惨）。

如果现在有多个参数呢？我们可以用一个向量的方式来表示 \[ \bigtriangledown L = \begin{bmatrix} \frac{\partial{L}}{\partial{w}} \\ \frac{\partial{L}}{\partial{b}} \\ \end{bmatrix}_{\text{gradient}}. \]

在这个例子当中，李老师得到了 \(\text{error}_{\text{training}} = 31.9\) and \(\text{error}_{\text{test}} = 35\).

我们这里讨论了最简单的一个模型，如果现在提高模型复杂度会怎么样呢？如果我们假设 \(y = b + w_1 \cdot x + w_2 \cdot x^2\)，我们就能得到 \(\text{error}_{\text{training}} = 15.4, \ \text{error}_{\text{test}} = 18.4\)，看起来好了不少。如果进一步假设 \(y = b + w_1 \cdot x + w_2 \cdot x^2 + w_3 \cdot x^3\)，则 \(\text{error}_{\text{training}} = 15.3,\ \text{error}_{\text{test}} = 18.1\)。

如果现在假设 \(x\) 是四次方的一个方程，则 \(\text{error}_{\text{training}} = 14.9, \ \text{error}_{\text{test}} = 28.8\). 如果假设\(y = b + w_1 \cdot x + w_2 \cdot x^2 + w_3 \cdot x^3 + w_4 \cdot x^4 + w_5 \cdot x^5\)，则\(\text{error}_{\text{training}} = 12.8，\ \text{error}_{\text{test}} = 232.1\).

当模型复杂度提高的时候，模型在训练集的错误会下降，测试集的也会下降，但是当模型复杂度到了一定程度，随着训练集错误下降，测试集错误上升，我们称之为 overfitting。

事实上，解决overfitting的方法可以是使用domain knowledge来设计一个更合理的方程，或者减少模型的复杂度。另一个操作性更强的方法就是增加数据和feature。

比如我们收集了四个神奇宝贝，增加了数据量，那么我们可以把模型设计为： \[ \begin{align} y &= b_1 \cdot \delta(x_s=\text{Pidgey}) \\ &+ w_1 \cdot \delta(x_s = \text{Pidgey})x_{cp} \\ &+ b_2 \cdot \delta(x_s = \text{Weedle}) \\ &+ w_2 \cdot \delta(x_s = \text{Weedle})x_{cp} \\ &+ b_3 \cdot \delta(x_s = \text{Caterpie}) \\ &+ w_3 \cdot \delta(x_s = \text{Caterpie})x_{cp} \\ &+ b_4 \cdot \delta(x_s = \text{Eevee}) \\ &+ w_4 \cdot \delta(x_s = \text{Eevee})x_{cp} \end{align} \] 其中 \[ \delta(x_s = Pidgey) = \begin{cases} =1 \quad \text{if } x_s = \text{Pidgey} \\ =0 \quad \text{otherwise} \end{cases}. \]

这样我们得到的就是\(\text{error}_{\text{training}} = 3.8, \; \text{error}_{\text{test}} = 14.3\).

如果我们继续增加特征或者模型复杂度，有可能再次导致overfitting，所以这里我们对损失函数进行改造： \[ L = \sum_n \Big(y^n - \big( b + \sum w_i x_i \big) \Big)^2 + \lambda \sum (w_i)^2. \] 我们增加了一个惩罚项。当模型过于复杂的时候，这个惩罚项会变得很大。因此，越小的系数效果越好。越小的系数意味着越光滑的模型。一般来说我们认为比较光滑的模型更有可能正确。我们将这个方法叫做regularization。这里我们可以看到，我们没有必要对\(b\)做regularaizaion，因为这个参数仅仅影响模型上下移动，并不影响模型的复杂度。