正则化本身是一种参数范数惩罚,即权重衰减。
L2参数正则化L2参数正则化策略通过向目标函数添加一个正则项
Ω
(
θ
=
1
2
∥
w
∥
2
2
)
\Omega(\theta=\frac{1}{2}\Vert w\Vert_{2}^{2})
Ω(θ=21∥w∥22),来使权重更加接近原点。其他学术圈称L2为岭回归或者Tikhonov正则。
下图中 w ~ \tilde{w} w~即为增加L2正则项之后所求的参数集, w ∗ w^* w∗则是为加正则项所要求的参数集,进行了特征分解。
L2正则化能让学习算法"感知"到具有较高方差的输入x,因此与输出目标的协方差较小(相对增加方差)的特征的权重将会收缩(证明详见Deep Learning Chapter 7.1.1)。 L1参数正则化
形式化地,L1正则化定义为:
Ω
(
θ
)
=
∥
w
∥
1
=
∑
i
∣
w
i
∣
\Omega(\theta)=\Vert w \Vert_1 = \sum_i{|w_i|}
Ω(θ)=∥w∥1=i∑∣wi∣
相对于L2正则化,L1正则化会产生更稀疏的解。这里的稀疏性是指最优值中一些参数为0,即0更多的参数集。由式子7.23可知, ∣ w i ∗ ∣ < α H i , j |w_i^*| < \frac{\alpha}{H_{i,j}} ∣wi∗∣<Hi,jα,参数集的i维就被指定成了0,而观察L2正则的式子7.13,L2正则只是放缩了原参数集的大小,并不能使其为零。
由于L1正则化导出的稀疏性质已经被广泛的用于特征选择机制。特征选择从可用的特征子集中选择有意义的特征,从而化简机器学习问题。著名的LASSO模型将L1惩罚和线性模型相组合,并使用最小二乘代价函数。如果L1惩罚是的部分子集的权重为0,则表示相应的特征可以被安全的忽略。
L2正则化相当于是高斯先验的MAP贝叶斯推断;L1正则化等价于通过MAP贝叶斯推断最大化对数先验项。
或者从分布的角度而言: