正则化(regularization)就是结构风险最小化策略的具体实现。
正则项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。
正则化的一般形式:
第一部分是经验风险,第二部分是正则化项,\(\lambda\geq0\)为调整二者关系的系数。
正则化项可以取不同的形式。
在回归问题中,正则化项可以是参数向量的\(L_1\)范数:
也可以是参数向量的\(L_2\)范数:
正则化的目的是选择经验风险与模型复杂度同时较小的模型。 4-4.交叉验证
当样本数据充足时,进行模型选择的一种简单方法是随机地将数据集切分成三部分,分别为训练集(training set)、验证集(validation set)和测试集(test set),其中训练集用来训练模型,验证集用于模型的比较选择,测试集则用来对模型进行最终的评估。
但是,大多数实际应用中,数据并不是充足的,这时候可以采用交叉验证的方法。
交叉验证的基本思想是重复的使用数据,将给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此进出上反复进行训练、测试以及模型选择。
方法:随机地将数据按照7:3或者6:4划分成两部分,一部分作为训练集,另一部分作为测试集,然后用训练集对各个模型进行训练,再使用测试集评估各个模型的测试误差,选出其中测试误差最小的模型。
(2)K折交叉验证方法:随机地将数据切分成K等份互不相交的自己,然后使用其中的K-1份作为训练集,使用剩下的1份作为测试集测试模型,重复这一过程K次,最后选出K次平均测试误差最小的模型。
方法:留一交叉验证是一种特殊的K折交叉验证,K=样本容量,往往是在数据缺乏的情况下使用。
[1] 统计学习方法
[2] 机器学习