这篇博文主要是解释偏差和方差,以及如何利用偏差和方差理解机器学习算法的泛化性能
综述
在有监督学习中,对于任何学习算法而言,他们的预测误差可分解为三部分
偏差
方差
噪声
噪声属于不可约减误差,无论使用哪种算法,都无法减少噪声。 通常噪声是从问题的选定框架中引入的错误,也可能是由诸如未知变量之类的因素引起的,这些因素会影响输入变量到输出变量的映射。噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。而剩下两种误差则与我们选择的学习算法相关,并且可以通过一些方法减小
数学推导
对于测试样本 x, 令
上面的期望预测是针对 不同 数据集 D, f 对 x 的预测值取其期望, 也被叫做 average predicted. 使用样本数目相同的不同训练集产生的方差为
期望输出与真实标记的差别成为偏差
噪声
算法的期望泛化误差E(f ;D)为
偏差
偏差度量了学习算法的期望预测和真实值之间的差别,刻画了学习算法本身的拟合能力.
低偏差:表明期望输出和真实标记之间误差小,学习算法拟合能力更强
高偏差:表明期望输出和真实标记之间误差大,学习算法拟合能力较差
低偏差机器学习算法的示例包括:决策树,kNN和支持向量机;高偏差机器学习算法的示例包括:线性回归,线性判别分析和逻辑回归
通常来说线性算法学习速度更快,更易于理解,但灵活性较低而无法从数据集中学习复杂的信号,具有较高的偏差.因此,它们针对复杂问题具有较低的预测性能.想象一下,将线性回归拟合到具有非线性模式的数据集: