机器学习 :基础概念 (3)

日期：2021-10-04 栏目：程序人生浏览：次

正则化（regularization）就是结构风险最小化策略的具体实现。
正则项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大。
正则化的一般形式：

机器学习 :基础概念

第一部分是经验风险，第二部分是正则化项，\(\lambda\geq0\)为调整二者关系的系数。
正则化项可以取不同的形式。
在回归问题中，正则化项可以是参数向量的\(L_1\)范数：

机器学习 :基础概念

也可以是参数向量的\(L_2\)范数：

机器学习 :基础概念

正则化的目的是选择经验风险与模型复杂度同时较小的模型。

4-4.交叉验证

当样本数据充足时，进行模型选择的一种简单方法是随机地将数据集切分成三部分，分别为训练集（training set）、验证集（validation set）和测试集（test set），其中训练集用来训练模型，验证集用于模型的比较选择，测试集则用来对模型进行最终的评估。
但是，大多数实际应用中，数据并不是充足的，这时候可以采用交叉验证的方法。
交叉验证的基本思想是重复的使用数据，将给定的数据进行切分，将切分的数据集组合为训练集与测试集，在此进出上反复进行训练、测试以及模型选择。

（1）简单交叉验证

方法：随机地将数据按照7：3或者6：4划分成两部分，一部分作为训练集，另一部分作为测试集，然后用训练集对各个模型进行训练，再使用测试集评估各个模型的测试误差，选出其中测试误差最小的模型。

（2）K折交叉验证

方法：随机地将数据切分成K等份互不相交的自己，然后使用其中的K-1份作为训练集，使用剩下的1份作为测试集测试模型，重复这一过程K次，最后选出K次平均测试误差最小的模型。

机器学习 :基础概念

（3）留一交叉验证

方法：留一交叉验证是一种特殊的K折交叉验证，K=样本容量，往往是在数据缺乏的情况下使用。

5.参考与感谢

[1] 统计学习方法
[2] 机器学习

转载注明出处：https://www.heiqu.com/zypswg.html

机器学习 :基础概念 (3)

相关推荐