SVM的推导(1)
SVM是机器学习中的一种经典方法,除了硬间隔SVM之外,还包括软间隔SVM,核技巧等SVM的变种,本文主要介绍硬间隔SVM 的推导。
函数距离与几何距离
假设两类样本点是可以被准确分开的,那么则可以使用硬间隔SVM来进行分类,假设分隔的超平面方程为,则每个样本点到该超平面的距离为,如果设定与超平面之间的距离为正的点为正分类,即,相反负距离的点为负分类,即,那么可以将样本点到分离超平面的距离表示为,这称为样本点到分离超平面之间的函数距离。
令,即为最小函数距离。需要注意到,函数距离在和同时增大某个比例倍数时,函数间隔会增大但是超平面不会发生改变,此时便需要将超平面的进行约束,比如令,我们可以重新定义距离为,称之为几何距离,令,即可以得到。
最大间隔的最优化形式
那么最大化分隔距离的优化问题即可表示如下:
即
注意上式中,函数间隔的取值并不会影响最优化问题的解,不妨假设,并且注意到最大化与最小化等价,那么上述问题即可以等价为:
拉格朗日乘子与 KKT 条件
上述问题即为一个不等式约束的最优化问题,可以利用拉格朗日乘子法与KKT条件来求解,令,首先构造拉格朗日函数为:
假设是优化问题的最优解,那么根据KKT条件,一定满足以下方程:
KKT条件主要包括几个方面的内容:1.拉格朗日函数对于原始优化变量的梯度为0,如(1)和(2)2.拉格朗日乘子和不等式约束的左式(化为标准形式)的乘积全为0,如(3)3.原问题的约束条件,如(4)4.拉格朗日乘子非负,如(5)
由(1)和(2)可以得到:
对偶问题
根据拉格朗日对偶性,原问题可以化为:
即
其中问题的最优解由KKT条件可以得到为,并且有,代入上式即可将原问题化为:
在求解了之后,即可根据求得,由于分离超平面的参数是决定的,而分离超平面由的决定的,因此再选取任意使得,得到,这样便可以得到分离超平面。
对于上面的求解的优化问题,我们在下文将会介绍SMO算法来求解
To be continuue…