其中X表示特征变量,w表示权重,y表示真实情况。岭回归是缓解模型中回归预测变量之间共线性的一种补救措施。由于共线性,多元回归模型中的一个特征变量可以由其他变量进行线性预测。
为了缓解这个问题,岭回归为变量增加了一个小的平方偏差因子(其实也就是正则项):
这种平方偏差因子向模型中引入少量偏差,但大大减少了方差。
岭回归的几个要点:
• 这种回归的假设与最小平方回归相同,不同点在于最小平方回归的时候,我们假设数据的误差服从高斯分布使用的是极大似然估计(MLE),在岭回归的时候,由于添加了偏差因子,即w的先验信息,使用的是极大后验估计(MAP)来得到最终参数的。
• 它缩小了系数的值,但没有达到零,这表明没有特征选择功能。
Lasso回归Lasso回归与岭回归非常相似,因为两种技术都有相同的前提:它们都是在回归优化函数中增加一个偏置项,以减少共线性的影响,从而减少模型方差。然而,不像岭回归那样使用平方偏差,Lasso回归使用绝对值偏差作为正则化项:
岭回归和Lasso回归之间存在一些差异,基本上可以归结为L2和L1正则化的性质差异:
• 内置的特征选择(Built-in feature selection):这是L1范数的一个非常有用的属性,而L2范数不具有这种特性。这实际上因为是L1范数倾向于产生稀疏系数。例如,假设模型有100个系数,但其中只有10个系数是非零系数,这实际上是说“其他90个变量对预测目标值没有用处”。 而L2范数产生非稀疏系数,所以没有这个属性。因此,可以说Lasso回归做了一种“参数选择”形式,未被选中的特征变量对整体的权重为0。
• 稀疏性:指矩阵(或向量)中只有极少数条目非零。 L1范数具有产生具有零值或具有很少大系数的非常小值的许多系数的属性。
• 计算效率:L1范数没有解析解,但L2范数有。这使得L2范数的解可以通过计算得到。然而,L1范数的解具有稀疏性,这使得它可以与稀疏算法一起使用,这使得在计算上更有效率。
弹性网络回归(ElasticNet Regression)
ElasticNet是Lasso回归和岭回归技术的混合体。它使用了L1和L2正则化,也达到了两种技术的效果:
在Lasso和岭回归之间进行权衡的一个实际优势是,它允许Elastic-Net在循环的情况下继承岭回归的一些稳定性。
ElasticNet回归的几个关键点:
• 它鼓励在高度相关变量的情况下的群体效应,而不是像Lasso那样将其中一些置零。当多个特征和另一个特征相关的时候弹性网络非常有用。Lasso 倾向于随机选择其中一个,而弹性网络更倾向于选择两个。
• 对所选变量的数量没有限制。
结论
所有这些回归正则化方法(Lasso回归,岭回归和ElasticNet)在数据集中的变量之间具有高维度和多重共线性的情况下也能有良好的效果。