其中λ>0调整正则化项与均方误差的比例;||...||2为L2范数。
根据上述原理,我们得到多元线性回归算法:
输入:
数据集T,正则化项系数λ>0
输出:
算法步骤:
a. 令:
计算:
b. 求解:
c. 最终学得模型:
3.2 广义线性模型
考虑单调可导函数h(•),令:
这样得到的模型称为广义线性模型。一个典型的例子就是对数线性回归,即当h(•)=ln(•)时的广义线性模型就是对数线性回归,即:
它是通过
拟合y的。它虽然称为广义线性回归,但实质上是非线性的。
3.3 逻辑回归
上述均是用线性模型进行回归学习,而线性模型也可用于分类,逻辑回归就是利用线性模型进行分类的一种算法。
给定数据集T:
其中:
我们需要知道
该条件概率是:在已知测试样本的特征向量后,预测其为相应类的条件概率值。
考虑到
取值是连续的,因此它不能拟合离散变量。但是可以考虑用它来拟合条件概率
因为概率的取值也是连续的。要拟合概率,其取值范围为0~1,考虑采用广义线性模型,寻找到一个单调可导函数:对数概率函数(logistic function):
由于
则有: