从零开始学AI17——SVM的数学支撑知识-编程实验室

本文系统阐述了支持向量机(SVM)的核心概念与数学原理。首先从数据样本量、维度数和法向量等几何要素切入，解释SVM如何通过优化法向量模长实现最大间隔分类。其次介绍凸优化理论，说明SVM目标函数的凸性保证了解的唯一性。重点剖析了拉格朗日乘子法和对偶问题转换的关键作用，以及核函数"隐式升维"的数学魔法，包括线性核、多项式核和高斯核等实现方式。全文揭示了SVM从原始问题到对偶问题、从线性分类到核方法的完整理论链条，展现了这一经典算法在处理分类问题时的精妙数学设计。

第一板块：数据的骨架 —— 样本与几何

1. 数据的样本量 (Sample Size, mm 或 NN)

定义：你的 Excel 表格里有多少行。
例子：你调查了 1000 个人，样本量就是 1000。
影响：
- 样本量太小 →→ 规律没找全，容易欠拟合。
- 样本量太大 →→ 计算慢。SVM 处理 10万+ 样本时会非常吃力（因为要算 10万×10万10万×10万的矩阵）。

2. 样本的维度数 (Dimensions / Features, nn 或 dd)

定义：你的 Excel 表格里有多少列（不含标签列）。
例子：你调查了每个人的“身高、体重、收入、年龄”，维度数就是 4。如果是 100x100 的图片，维度数就是 10000。
影响：
- 低维：直观，好画图，但容易分不开（线性不可分）。
- 高维：“维度灾难”。数据在高维空间会变得极度稀疏，但也更容易被切分（SVM 升维就是利用这一点）。

3. 法向量 (Normal Vector, ww)

定义：垂直于一个平面（或直线）的向量。
作用：它是平面的**“方向盘”**。确定了法向量，平面的朝向就定了。
在 SVM 中：分类超平面方程是 wTx+b=0wTx+b=0。这里的 ww 就是法向量。它指向的方向，被定义为“正类”的方向。

4. 法向量和距离的关系

公式：点 x0x0 到平面 wTx+b=0wTx+b=0 的距离 d=∣wTx0+b∣∣∣w∣∣d=∣∣w∣∣∣wTx0+b∣。
直观理解：法向量 ww 的模长 ∣∣w∣∣∣∣w∣∣ 越大，分母越大，距离算出来就越小。
SVM 的核心逻辑：
SVM 想让间隔（距离）变大 →→ 所以要让分母 ∣∣w∣∣∣∣w∣∣ 变小 →→ 这就是为什么 SVM 的优化目标是 min⁡12∣∣w∣∣2min21∣∣w∣∣2。

第二板块：优化的战场 —— 凸与凹

5. 凸函数 (Convex Function)

形状：像一个碗（或者山谷）。
核心性质：任意两点连线，都在函数图像的上方。
最牛的特点：只有一个最低点（全局最优解）。
例子：y=x2y=x2。
意义：机器学习最喜欢凸函数。因为用梯度下降法往低处走，闭着眼也能走到谷底，不用担心掉进假坑里。

6. 凹函数 (Concave Function)

形状：像一个拱桥（或者山峰）。
例子：y=−x2y=−x2 或 y=log⁡xy=logx。
联系：一个凸函数加个负号，就变成了凹函数。

7. 凸优化问题 (Convex Optimization)

定义：在一个凸集（定义域没坑）上，找一个凸函数的极小值。
地位：这是优化界的“舒适区”。只要证明了你的问题是凸优化问题（SVM 就是），你就一定能找到完美的解，而且有现成的高效算法（如 QP 求解器）。

第三板块：解题的魔法 —— 对偶与核

8. 有约束问题 vs 无约束问题

无约束问题 (Unconstrained)：
- 形式：min⁡f(x)minf(x)。
- 解法：直接求导，令导数等于 0，算完收工。
- 例子：线性回归。
有约束问题 (Constrained)：
- 形式：min⁡f(x)minf(x)，但是要求 x>0x>0 且 x+y=1x+y=1。
- 难点：最小值可能在边界上，直接求导不管用了。
- 例子：SVM（要求所有点必须在马路两边，这就是约束）。

9. 拉格朗日乘子法 (Lagrange Multipliers)

定义：一种把“有约束”变成“无约束”的数学技巧。
操作：
- 原问题：最小化 f(x)f(x)，受限于 g(x)≤0g(x)≤0。
- 构造新函数：L(x,α)=f(x)+α⋅g(x)L(x,α)=f(x)+α⋅g(x)。
- 其中 αα 就是拉格朗日乘子。
作用：它像一种惩罚机制。如果你违反了约束 g(x)g(x)，我就让 αg(x)αg(x) 变得很大，逼迫你去满足约束。通过优化这个新函数 LL，就能解决原问题。

10. 对偶问题 (Dual Problem)

定义：每个优化问题（原问题 Primal）都有一个“双胞胎兄弟”（对偶问题 Dual）。
- 原问题可能是“在满足条件下找最小”。
- 对偶问题就是“在满足条件下找最大”。
强对偶性 (Strong Duality)：在满足一定条件（Slater条件）下，原问题的最小值 = 对偶问题的最大值。
为什么要换着解？
- 有些问题正面攻（原问题）很难解，比如 SVM 的原问题里有 ww 和 bb。
- 背面攻（对偶问题）却很容易解，而且能引出核函数。

11. 核函数 (Kernel Function)

定义：K(x,y)=ϕ(x)⋅ϕ(y)K(x,y)=ϕ(x)⋅ϕ(y)。
人话：一个低维空间的计算公式，算出来的结果竟然等于高维空间的内积。
作用：
- 它让 SVM 能够处理非线性问题。
- 它避开了高维空间巨大的计算量（隐式映射）。
- 例子：RBF 高斯核，可以把二维数据映射到无穷维。

总结：它们在 SVM 里是怎么串起来的？

我们拿到样本 (mm)，每个样本有维度 (nn)。
我们想找一个超平面（由法向量 ww决定），让分类间隔（由ww 的模长决定）最大。
这是一个有约束的凸优化问题（目标函数是凸函数∣∣w∣∣2∣∣w∣∣2）。
为了解决约束，我们用了拉格朗日乘子法。
为了引入核函数来解决非线性，我们将原问题转化为了对偶问题。
最终，我们在高维空间里切了一刀，完美分类。

核函数

核函数（Kernel Function）是 SVM 最迷人、也是最“魔法”的地方。它的核心作用可以用一句话概括：“不动兵马，坐地升维”。

我们来详细拆解这个概念。

1. 为什么要“升维”？（维度打击）

我们在低维空间（比如二维平面）解决分类问题时，经常遇到**“线性不可分”**的情况。

经典案例：红蓝圈圈

数据分布：红色点聚集在圆心，蓝色点围成一个圆环包围着红色。
困境：给你在纸上（二维），无论怎么画直线，都无法把圆心和圆环分开。
破局：如果我们把这些点变成三维的呢？
- 设 z=x2+y2z=x2+y2（点到原点的距离平方）。
- 结果：红色点靠近圆心，zz 值很小（在谷底）；蓝色点远离圆心，zz 值很大（在山顶）。
- 切分：现在，我们只要在半山腰横着切一刀（平面），就把下面的红色和上面的蓝色彻底分开了。

结论：在低维空间分不开的数据，投射到高维空间后，往往就变得容易分开了。

2. 为什么要用“核函数”？（计算黑魔法）

既然升维这么好用，那我们直接把所有数据都算出高维坐标，然后再算距离不就行了吗？

不行，因为计算量会爆炸！

例子：假设原图是 1000 维（比如像素点），你想映射到 2阶的高维空间，维度会瞬间膨胀到 1000×1000=100万1000×1000=100万维。如果是无穷维呢？计算机直接死机。

核函数的魔法登场：
SVM 在寻找最佳切分面时，本质上只需要用到两个点之间的内积（Inner Product，也就是衡量相似度的东西），记作 ϕ(x1)⋅ϕ(x2)ϕ(x1)⋅ϕ(x2)。ϕ(x)ϕ(x) 就是高维空间的坐标。

核函数 K(x1,x2)K(x1,x2) 的定义是：
我不需要真的去算高维坐标 ϕ(x1)ϕ(x1) 和 ϕ(x2)ϕ(x2) 是多少，我有一个数学公式，在低维空间里算一下，算出来的结果竟然等于高维空间的内积！

K(x1,x2)=ϕ(x1)⋅ϕ(x2)K(x1,x2)=ϕ(x1)⋅ϕ(x2)

人话比喻：

你想知道两个亿万富翁（高维数据）谁更有钱（算内积）。
笨办法（显式映射）：让他们把家里所有的银行卡、房产证、股票全拿出来，堆满一屋子，然后一张张数。这太慢了。
核函数（隐式计算）：你不用看资产，你只要问他们：“你家住几号别墅？开什么车？”（低维特征）。通过这一两个简单的问题，你就能通过一个公式精准算出他们资产的差距。

意义：我们享受了高维空间“容易分类”的红利，却只付出了低维空间的计算成本。这就叫**“坐地升维”**。

3. 常见的核函数有哪些？（武器库）

SVM 提供了不同的核函数，对应不同的“升维”策略：

A. 线性核 (Linear Kernel)

公式：K(x,y)=x⋅yK(x,y)=x⋅y
含义：根本不升维。就在原空间切。
场景：特征非常多（文本分类）或者数据本来就分得挺开。速度最快。

B. 多项式核 (Polynomial Kernel)

公式：K(x,y)=(x⋅y+c)dK(x,y)=(x⋅y+c)d
含义：显式地把数据映射到有限的高维（比如平方、立方）。
场景：图像处理中用得较多，能拟合出弯曲的边界。但参数 dd 难调，容易过拟合。

C. 高斯核 / RBF 核 (Radial Basis Function) ——最强王者

公式：K(x,y)=exp⁡(−γ∣∣x−y∣∣2)K(x,y)=exp(−γ∣∣x−y∣∣2)
含义：这是一个无穷维的映射！它基于距离。离得近，核函数值接近1；离得远，接近0。
直观理解：它就像在每个样本点上插了一根旗杆，旗布像帐篷一样垂下来。它能在数据周围把空间“顶”起来。
场景：万能钥匙。当你不知道用什么核的时候，选 RBF 准没错。它可以拟合出任意复杂的边界（圈圈、波浪线、S型）。

D. Sigmoid 核

公式：K(x,y)=tanh⁡(κx⋅y+c)K(x,y)=tanh(κx⋅y+c)
含义：源自神经网络。用这个核，SVM 就相当于一个两层的神经网络。

总结

目的：为了把“纠缠不清”的数据分开，我们需要升维。
困难：真的去算高维坐标，计算量会死人。
解决：核函数。它是一个“作弊器”，让我们在低维算一算，就得到了高维的效果。
怎么选：简单线性的用 Linear，复杂的不知道选啥就用RBF（高斯核）。

从零开始学AI17——SVM的数学支撑知识