《神经网络与机器学习12章 支持向量机》 (3)

例子:正样本点$\{[3\quad 3]^{\mathrm{T}}|y_1=1\}$,$\{[4\quad 3]^{\mathrm{T}}|y_2=1\}$,负样本点$\{[1\quad 1]^{\mathrm{T}}|y_3=-1\}$。

《神经网络与机器学习12章 支持向量机》

解:根据数据,得到

\[\underset{\alpha}{min}\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^{N}\alpha_i\\
=\frac{1}{2}[18\alpha_1^2+25\alpha_2^2+2\alpha_3^2+21\alpha_1\alpha_2-6\alpha_1\alpha_3-7\alpha_2\alpha_3]-\alpha_1-\alpha_2-\alpha_3\\
s.t. \quad \alpha_1+\alpha_2-\alpha_3=0\\
\alpha_i\geq 0\]

 

解得$\alpha_1+\alpha_2=\alpha_3$,代入

\[min\quad 4\alpha_1^2+6.5\alpha_2^2+10\alpha_1\alpha_2-2\alpha_1-2\alpha_2\]

得到解

\[(\alpha_1,\alpha_2)=(1.5,-1)\]

不满足$\alpha_i\geq 0$约束条件,因此寻找边界点。发现解

\[(\alpha_1,\alpha_2,\alpha_3)=(0.25,0,0.25)\]

因此发现

\[\{\begin{bmatrix}
3 & 3
\end{bmatrix}^{\mathrm{T}}|y_1=1\},\{\begin{bmatrix}
1 & 1
\end{bmatrix}^{\mathrm{T}}|y_3=-1\}\]

是支持向量。

\[w^*=\sum_{i=1}^{N}\alpha_i^*y_ix_i=\frac{1}{4}(\begin{bmatrix}
3\\3
\end{bmatrix}-\begin{bmatrix}
1\\ 1
\end{bmatrix})=\begin{bmatrix}
\frac{1}{2}\\
\frac{1}{2}
\end{bmatrix}\\
b^*=y_j-(\sum_{i=1}^{N}\alpha_i^*y_ix_i\cdot x_j)=-2\]

超平面是

\[\mathbf{w}^*x+b^*=0\\
\begin{bmatrix}
\frac{1}{2}& \frac{1}{2}
\end{bmatrix}\begin{bmatrix}
x_1\\
x_2
\end{bmatrix}-2=0\]

§12.4 软间隔最大化

上面的学习算法对应线性不可分问题是不适用的,约束不在成立。这里利用软间隔最大化,则可以解决线性不可分问题。

给定特征空间上的训练数据集

\[\left \{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\right \}\]

$x_i$是实向量,而$y_i$是标签,取值{+1,-1}。数据集中总是有些特异点(outlier),将这些造成线性不可分的问题的特异点去除,则剩下的大部分点是线性可分的。

《神经网络与机器学习12章 支持向量机》

第一种黄蓝各自都有一个数据异常

《神经网络与机器学习12章 支持向量机》

第二种 改变了分离平面的异常点

异常点造成线性不可分,因为异常点不满足函数间隔大于等于1的约束条,为了解决不可分问题,对训练集里面的每个样本$(x_i,y_i)$引入了一个松弛变量$\xi_i\geq 0$使函数间隔加上松弛变量大于等于1,约束条件变成

\[y_j(w^*x_j+b^*)\geq 1-\xi_i\]

对比硬间隔最大化,可以看到我们对样本到超平面的函数距离的要求放松了,之前是一定要大于等于1,现在只需要加上一个大于等于0的松弛变量能大于等于1就可以了。松弛变量加入有成本的,每一个松弛变量$\xi_i\geq 0$ 对应了一个代价$\xi_i$,这样优化目标函数从$\frac{1}{2}||w||^2$,变成了

\[\frac{1}{2}\left \| w\right \|^2+C\sum_{i=1}^{N}\xi_i\]

C>0为惩罚参数,可以理解为分类问题正则化时候的参数。C越大,对误分类的惩罚越大,C越小,对误分类的惩罚越小。因此目标函数即希望$\frac{1}{2}||w||^2$尽量小,间隔最大,同时使得误分类的点尽可能的少,C是协调两者关系的参数。

因此我们把下面的凸二次规划问题称为软间隔最大化:

\[\underset{w,b}{min}\frac{1}{2}\left \| w\right \|^2+C\sum_{i=1}^{N}\xi_i\\
s.t. \quad y_j(w^*x_j+b^*)\geq 1-\xi_i,i=1,2,\cdots,N\\
\quad \quad \quad \xi_i\geq 0\]

构建Lagrange函数

\[L(w,b,\xi,\alpha,u)=\frac{1}{2}\left \| w\right \|^2+C\sum_{i=1}^{N}\xi_i-\sum_{i=1}^{N}\alpha_i[y_i(w^{\mathrm{T}}x_i+b)-1+\xi_i]-\sum_{i=1}^{N}u_i\xi_i\\
\alpha_i> 0,u_i> 0\]

根据对偶性,原始问题的对偶问题是

\[\underset{\alpha}{min}\underset{w,b,\xi}{max}L(w,b,\xi,\alpha,u)\]

因此首先求最小

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwjfxs.html