一、问题设定:线性可分的二分类问题
给定训练集:
目标:找到一个超平面
将正负样本严格分开,并最大化到两类样本的间隔。
二、最大间隔分类器(Hard Margin)
1. 几何间隔
对任意一个样本 ,几何间隔定义为:
整个分类器的几何间隔为:
为了简化优化问题,我们固定几何间隔为 ,变成以下约束问题:
2. 原始优化问题(Primal Form)
这相当于最大化间隔的二次规划问题。
三、软间隔分类器(Soft Margin)
若数据线性不可分,引入松弛变量 :
其中 控制间隔和误差的权衡。
四、拉格朗日对偶问题(Dual Form)
原始问题是带不等式约束的凸优化问题。引入拉格朗日乘子 ,构造拉格朗日函数:
对 求极小,对 求极大,得到对偶问题:
求解后,可恢复:
五、核技巧(Kernel Trick)
若数据非线性不可分,引入特征映射 到高维空间,令:
然后直接在对偶问题中使用核函数 :
常见核函数包括:
- 线性核:
- 多项式核:
- 高斯核(RBF):
- Sigmoid核:
六、支持向量与分类器形式
在对偶问题中,只有 的样本才参与最终模型,它们被称为支持向量。
最终分类器形式为:
七、核函数的有效性条件(Mercer定理)
核函数对应某一映射 的充分条件是对应的 Gram 矩阵:
为正定矩阵。
八、SVM的优势与应用
- 几何解释明确,最大间隔分类器;
- 能够处理高维甚至无限维空间(核方法);
- 对小样本表现优秀;
- 可扩展到回归任务(SVR)、多类分类(OVR, OVO);
- 广泛应用于图像识别、生物信息、文本分类、金融风险建模等领域。