经验风险(empirical risk)是指模型关于训练集的平均损失,也称为经验损失(empirical loss)。
根据大数定理,当样本容量n趋于无穷时,经验风险就趋近于期望风险。因此,就用经验风险去估计期望风险。
但是,实际情况下,由于样本容量有限,使用经验风险估计期望风险的效果并不好,这时就需要做一些校正。
因此就形成了两种选择模型的策略:经验风险最小化、结构风险最小化。 (4)经验风险最小化
经验风险最小化(empirical risk minimization, ERM)策略认为,经验损失最小的模型就是最优的模型。
当样本容量足够大,经验风险最小化策略可以保证有很好的学习效果。
最大似然估计就是经验风险最小化的例子。 (5)结构风险最小化
当样本容量很小时,经验风险最小化的学习效果并不是很好,就会产生过拟合。
结构风险最小化(structural risk minimization, SRM)就是为了防止过拟合提出的策略,其实质就是正则化(regularization)。
结构风险就是在经验风险上增加表示模型复杂度的正则化项(regularization),或称为惩罚项(penalty term)。
其中\(J(f)\)为模型的复杂度,模型\(f\)越复杂,复杂度就越大;反之,模型\(f\)越简单,复杂度就越小。复杂度\(J(f)\)表示了对复杂模型的惩罚。\(\lambda \geq0\)是系数,用以权衡经验风险和模型复杂度。结构风险小需要经验风险与模型复杂度同时小。结构风险小的模型一般对训练数据和未知的测试数据都具有较好的预测效果。
结构风险最小化策略认为,结构风险最小的模型就是最优的模型。
最大后验概率估计就是结构风险最小化的例子。 (6)小结
监督学习问题就是经验风险函数或结构风险函数的最优化问题。
3-3.算法算法就是求解上述最优化问题的计算方法。
假设学习到的模型是\(Y=\hat{f}(X)\)。
训练误差就是模型\(Y=\hat{f}(X)\)关于训练数据集的平均损失:
同理,测试误差就是模型\(Y=http://www.likecs.com/hat{f}(X)\)关于测试数据集的平均损失:
训练误差本质上并不重要,测试误差则是一个非常重要的概念,反映了模型对未知的测试数据集的预测能力。
两个模型,测试误差小的就是更好的模型。 4-2.泛化能力
模型对未知数据的预测能力,就称为泛化能力。
4-2.过拟合与模型复杂度过拟合(over-fitting)是指学习的模型复杂度过高,导致对已知的训练数据预测的很好,但对未知的测试数据预测很差的现象。
当模型的复杂度增大时,训练误差会主键减少并趋向于0,而测试误差会先减小而后又增大;当选择的模型复杂度过大时,过拟合的现象就会发生。所以,为了防止模型的过拟合,就要选择复杂度适当的模型,以达到测试误差最小的学习目的。
有两种常用的模型选择方法:正则化和交叉验证。 4-3.正则化