AI Club讲义硬间隔 SVM （入门）

向量 (Vector) 基础

向量是一个有“方向”和“大小”的对象，数学上表示为一个有序数组

v = v_{1} v_{2} ⋮ v_{n} \in R^{n}

基础运算

加法：逐元素相加：

a + b = [a_{1} + b_{1} a_{2} + b_{2}]

数量乘（数乘向量）：每个元素都乘上一个常数 $k$ ：

k \cdot a = [k a_{1} k a_{2}]

范数 (Norm) $∣ w ∣$ 与归一化 (Normalization)

范数是衡量向量“大小”或“长度”的函数，不同范数有不同的“测量方式”

$L_{p}$ 范数的一般形式

$∥ x ∥_{p} = (\sum_{i = 1}^{n} ∣ x_{i} ∣^{p})^{1/ p}$

$L_{1}$ 范数（曼哈顿距离 / 稀疏范数）

∥ x ∥_{1} = i = 1 \sum n ∣ x_{i} ∣

每一维的绝对值直接加起来
在几何上是“走街区”的距离（Manhattan Distance）
在机器学习中常用于稀疏性建模（L1正则化），例如 Lasso 回归

L2 范数（欧几里得距离 / 向量长度）

∥ x ∥_{2} = i = 1 \sum n x_{i}^{2}

最自然的“直线长度”
是我们默认理解的向量“大小”
在 SVM、最小二乘回归中广泛应用（如 Ridge Regression）

$L_{\infty}$ 范数（最大范数（Max Norm）或切比雪夫距离（Chebyshev Distance））

p \to \infty lim ∥ x ∥_{p} = i max ∣ x_{i} ∣ = ∥ x ∥_{\infty}

向量中最大绝对值分量

越大的 $p$ ，范数对大分量的惩罚越大（更“极端”）

定义（L2范数）向量的“长度”：

∥ w ∥ = w_{1}^{2} + w_{2}^{2} + \dots + w_{n}^{2}

或者

∥ x ∥_{2} = i = 1 \sum n x_{i}^{2}

单位向量（归一化）

\overset{w}{^} = \frac{w}{∥ w ∥}

内积运算

设 $a, b \in R^{n}$ ， $θ$ 是它们之间的夹角。
代数定义的点积
$a \cdot b = \sum_{i = 1}^{n} a_{i} b_{i}$
几何定义的点积
$a \cdot b = ∥ a ∥ \cdot ∥ b ∥ \cdot cos θ$
从几何角度出发，引入单位向量
$\overset{a}{^} = \frac{a}{∥ a ∥} ， \hat{b} = \frac{b}{∥ b ∥}$
单位向量点积的几何定义是
$\overset{a}{^} \cdot \hat{b} = cos θ$
另一方面
$\overset{a}{^} \cdot \hat{b} = (\frac{a}{∥ a ∥}) \cdot (\frac{b}{∥ b ∥}) = \frac{a \cdot b}{∥ a ∥ \cdot ∥ b ∥}$
两边同时乘以 $∥ a ∥ \cdot ∥ b ∥$ ，得到
$a \cdot b = ∥ a ∥ \cdot ∥ b ∥ \cdot cos θ$

∣ v ∣ = v_{1}^{2} + v_{2}^{2} + \dots + v_{n}^{2}

内积（点积）：两个向量的“相似度”，也是几何角度的夹角关系：

a \cdot b = a_{1} b_{1} + a_{2} b_{2} + \dots + a_{n} b_{n} = ∥ a ∥∥ b ∥ cos θ

正交 (Orthogonal)

a \cdot b = 0

情况	结果	意义
$a \cdot b > 0$	夹角小于90度	同方向有投影
$a \cdot b = 0$	夹角为90度	正交（垂直）
$a \cdot b < 0$	夹角大于90度	方向相反（反向）

性质	数学表达式	说明
交换律	$a \cdot b = b \cdot a$	次序无关
分配律	$a \cdot (b + c) = a \cdot b + a \cdot c$	向量加法上的分配性
数乘结合律	$(c a) \cdot b = c (a \cdot b)$	$c$ 是标量
正定性	$a \cdot a = ∥ a ∥^{2} \geq 0$ ，且 = 0 当且仅当 $a = 0$	点积自己的结果永不为负
零向量判定	$a \cdot b = 0 \Rightarrow$ 正交或有一方为零向量	判断垂直/线性无关

在SVM中用向量表示每一个样本点，而不是使用坐标系

矩阵 (matrix) 与转置 (transpose)

转置

将行换成列

A = [12] \Rightarrow A^{T} = [12]

性质	数学表达式
$(A^{T})^{T} = A$	二次转置还原原矩阵
$(A + B)^{T} = A^{T} + B^{T}$	加法可交换
$(A B)^{T} = B^{T} A^{T}$	乘法转置时顺序会颠倒
$(c A)^{T} = c A^{T}$ （ $c$ 是常数）	常数可提取

矩阵乘法：

如果 $A \in R^{m \times n}$ ， $B \in R^{n \times p}$ ，则：

C = A B \in R^{m \times p}

矩阵乘法的本质：行向量与列向量的内积组合

超平面 (Hyperplane) 基础

在 $n$ 维空间中，一个超平面是一个维度为 $n - 1$ 的线性子空间，可以表示为

w^{T} x + b = 0

其中， $w$ 是法向量，决定平面的方向； $b$ 是偏置，决定平面的位置。

$w$ 是一个 列向量，通常是 $n$ 维向量，表示超平面的法向量（即垂直于超平面的方向）。
$x$ 是一个 列向量，表示输入空间中的一个点（样本）。
$w^{T}$ 是 $w$ 的转置 (transpose)，因此 $w^{T} x$ 是两个向量的 内积（dot product），结果是一个标量。
$b$ 是一个 偏置项（bias），决定了超平面在空间中的平移位置。
所以整个表达式 $w^{T} x + b$ 的值是一个实数。

所有在 $w$ 方向上“投影相同”的点，形成一个平面。

也就是说， $w^{T} x + b = 0$ 表示的是一个 正交于 $w$ 的面，这面上所有点的 $w$ -投影都刚好被 $b$ 抵消掉，所以结果是 0。

几何解释：

$w^{T} x + b > 0$ 的点在超平面的一侧；
$w^{T} x + b < 0$ 的点在另一侧；
$w^{T} x + b = 0$ 的点恰好在超平面上。

在SVM中超平面是用于分类的边界，SVM寻找“最大间隔的超平面”来划分两个类别。

硬间隔 SVM

标记

f (x) = sign (w^{T} x + b)

如果 $f (x) = + 1$ ，则 $x$ 被判定为正类； $f (x) = - 1$ ，则为负类。

函数间隔

$distance = y_{i} ∣ w^{T} x + b ∣$

几何间隔（margin）

函数间隔归一化结果就是几何间隔
$distance = \frac{∣ w ^{T} x + b ∣}{∥ w ∥}$
找任意平面上的点 $x_{H}$

我们知道平面 $w^{T} x + b = 0$ 上存在一些点，选一个 $x_{H}$ 满足：

w^{T} x_{H} + b = 0

例如你可以从某个已知 $x$ 上去找 $x_{H}$ ，或者直接作为中间变量。

点 $x_{0}$ 到平面 $H$ 的距离，就是从 $x_{0}$ 到平面上一点 $x_{H}$ 的向量 $x_{0} - x_{H}$ 在法向量方向 $w$ 上的投影长度。

因为 $w$ 垂直于平面，投影就是垂直距离！

这个投影长度公式如下：

distance = ∥ proj_{\overset{w}{^}} (x_{0} - x_{H}) ∥ = \frac{w ^{T} ( x _{0} - x _{H} )}{∥ w ∥}

利用 $w^{T} x_{H} = - b$ 将 $x_{H}$ 替换：

w^{T} (x_{0} - x_{H}) = w^{T} x_{0} - w^{T} x_{H} = w^{T} x_{0} + b

所以代入得：

distance = \frac{w ^{T} x _{0} + b}{∥ w ∥}

即：

distance = \frac{∣ w ^{T} x + b ∣}{∥ w ∥}

硬间隔 SVM 是支持向量机的最基础形式，要求所有训练样本必须被完全线性分开。

也就是说：

所有点都必须被一个超平面 $w^{T} x + b = 0$ 正确地分开；
并且我们希望这个超平面“离所有点尽可能远”，即最大化间隔（margin）。

线性可分的二分类问题

给定训练集：

(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{n}, y_{n}), x_{i} \in R^{d}, y_{i} \in {- 1, 1}

目标：找到一个超平面

w^{⊤} x + b = 0

将正负样本严格分开，并最大化到两类样本的间隔。

最大间隔分类器（Hard Margin）

任意一个样本 $(x_{i}, y_{i})$ ，几何间隔定义为：

γ_{i} = \frac{y _{i} ( w ^{⊤} x _{i} + b )}{∥ w ∥}

$γ_{i}$ 表示第 $i$ 个样本点 $x_{i}$ 到分类超平面 $w^{T} x + b = 0$ 的有符号距离（即“带方向”的几何间隔）：

$γ_{i} > 0$ → 分类正确
$γ_{i} < 0$ → 分类错误
$γ_{i} = 0$ → 正好落在超平面上

符号	名称	类型/范围	作用
$γ_{i}$	几何间隔	实数	点 $x_{i}$ 到超平面的带符号距离
$y_{i}$	标签	$- 1, + 1$	表示 $x_{i}$ 是正类还是负类
$x_{i}$	输入样本	向量 $\in R^{n}$	样本特征向量
$w$	法向量/权重	向量 $\in R^{n}$	决定超平面的方向
$b$	偏置	实数	控制超平面的位置
$w^{⊤} x_{i}$	点积/预测值	实数	决定 $x_{i}$ 落在超平面的哪一侧
$∥ w ∥$	向量长度	非负实数	用于归一化距离，决定几何间隔尺度

是否线性可分

Darren Engwirda

最优间隔分类器

小样本、非线性及高维模式识别

整个分类器的几何间隔为：

γ = i min γ_{i}

SVM的目标

w, b max (i min γ_{i})

也就是最大化所有样本中最小几何间隔。

最大间隔分类（max-margin classification）

原始优化问题（Primal Form）

w, b min s.t. \frac{1}{2} ∥ w ∥^{2} y_{i} (w^{⊤} x_{i} + b) \geq 1, i = 1, \dots, n

这相当于最大化间隔的二次规划问题。

判断是否线性可分

低维 / 数据量小：直接观测
高维 / 数据量大：检查凸包（convex hull）是否相交

凸包是一个凸的闭合曲线（曲面），而且刚好包住了所有的数据。

如果数据不是线性可分的，我们就必须要采用一些特殊的方法，比如SVM的核技巧把数据转换到更高的维度上，在那个高维空间数据更可能是线性可分的（Cover定理）。

4. 线性变换与空间映射

定义：

线性变换是保持加法和数量乘法性质的变换，通常由一个矩阵来表示：

T (x) = A x

其中 $A$ 是变换矩阵， $x$ 是输入向量， $T (x)$ 是输出。

举例：

二维旋转、投影、拉伸等都是线性变换。

在SVM中：

把输入样本 $x$ 通过变换（尤其在核SVM中）映射到高维空间以实现线性可分。

🎯 在SVM中：

SVM优化的是：

maximize margin \Rightarrow min \frac{1}{2} ∥ w ∥^{2}

这直接影响决策边界的宽度。

6. 拉格朗日乘子法（对偶优化）

定义：

用于有约束优化问题，通过引入“乘子”把约束合入目标函数中。

一般形式：

最小化 $f (x)$ ，满足 $g_{i} (x) \leq 0$ ，构造：

L (x, λ) = f (x) + \sum λ_{i} g_{i} (x)

🎯 在SVM中：

SVM的优化问题：

主问题：求解 $w, b$
对偶问题：引入 $α_{i}$ 拉格朗日乘子，最终转化为：

α max i \sum α_{i} - \frac{1}{2} i, j \sum α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}

对偶问题更适合加核函数，因此非常关键。

7. 特征空间与升维（用于核SVM）

升维思想：

在原空间中无法线性分割的点，通过一个映射 $ϕ (x)$ 变换到更高维空间，使其线性可分。

x \mapsto ϕ (x)

例如将 $(x_{1}, x_{2})$ 变为 $(x_{1}, x_{2}, x_{1}^{2}, x_{2}^{2}, x_{1} x_{2})$ 。

✅ 核函数：

核技巧让我们可以直接计算高维内积：

K (x_{i}, x_{j}) = ϕ (x_{i})^{T} ϕ (x_{j})

常见核函数：

线性核 $K (x, y) = x^{T} y$
多项式核 $K (x, y) = (x^{T} y + c)^{d}$
高斯核 $K (x, y) = exp (- γ ∣ x - y ∣^{2})$

8. 正定矩阵与Gram矩阵（核函数的有效性依据）

Gram矩阵定义：

对于数据集 $x_{1}, x_{2}, ..., x_{n}$ ，Gram矩阵是：

G_{ij} = K (x_{i}, x_{j})

✅ 正定矩阵：

矩阵 $A$ 是正定的当且仅当对任意非零向量 $x$ ，有：

x^{T} A x > 0

🎯 在SVM中：

核函数有效的充要条件是其对应的 Gram 矩阵是对称正定的。
这保证优化问题是凸的，解是全局最优。

My Vault

Explorer

AI Club讲义 硬间隔 SVM （入门）

向量 (Vector) 基础

基础运算

范数 (Norm) ∣w∣ 与归一化 (Normalization)

Lp​ 范数的一般形式

L1​ 范数（曼哈顿距离 / 稀疏范数）

L2 范数（欧几里得距离 / 向量长度）

L∞​ 范数（最大范数（Max Norm）或切比雪夫距离（Chebyshev Distance））

内积运算

矩阵 (matrix) 与转置 (transpose)

转置

矩阵乘法：

超平面 (Hyperplane) 基础

硬间隔 SVM

函数间隔

几何间隔（margin）

线性可分的二分类问题

最大间隔分类器（Hard Margin）

是否线性可分

最优间隔分类器

原始优化问题（Primal Form）

判断是否线性可分

4. 线性变换与空间映射

定义：

举例：

在SVM中：

🎯 在SVM中：

6. 拉格朗日乘子法（对偶优化）

定义：

一般形式：

🎯 在SVM中：

7. 特征空间与升维（用于核SVM）

升维思想：

✅ 核函数：

8. 正定矩阵与Gram矩阵（核函数的有效性依据）

Gram矩阵定义：

✅ 正定矩阵：

🎯 在SVM中：

Graph View

Table of Contents

Backlinks

AI Club讲义硬间隔 SVM （入门）

范数 (Norm) $∣ w ∣$ 与归一化 (Normalization)

$L_{p}$ 范数的一般形式

$L_{1}$ 范数（曼哈顿距离 / 稀疏范数）

$L_{\infty}$ 范数（最大范数（Max Norm）或切比雪夫距离（Chebyshev Distance））