机器学习笔记之支持向量机(三)模型求解

机器学习笔记之支持向量机——模型求解

引言

引言

上一节介绍了基于最大间隔分类器朴素思想产生的原问题转化为对偶问题的过程，本节将针对对偶问题进行求解。并介绍 强对偶关系需要满足的条件。

回顾：原问题转化为对偶问题的具体过程

在机器学习笔记之支持向量机(一)模型构建思路中介绍过，经过 函数间隔约束 的最大间隔分类器朴素思想表示如下：
$⎩ ⎨ ⎧ W, b min \frac{1}{2} W^{T} W s . t . 1 - y^{(i)} (W^{T} x^{(i)} + b) \leq 0 \forall (x^{(i)}, y^{(i)}) \in D a t a$

该问题是一个包含 $N$ 个约束的凸优化问题，使用拉格朗日乘数法将 原问题转化为无约束原问题：
令拉格朗日函数为 $\mathcal L(\mathcal W,b,\lambda)$ ，表示如下：
$\mathcal L(\mathcal W,b,\lambda) = \frac{1}{2} \mathcal W^{T}\mathcal W + \sum_{i=1}^N \lambda^{(i)} \left[1 - y^{(i)} \left(\mathcal W^{T}x^{(i)} + b\right)\right]$
基于原问题的约束条件是不等式约束，则有：
$\lambda^{(i)}(i=1,2,\cdots,N) \geq 0$
至此，无约束原问题 表示如下：
$⎩ ⎨ ⎧ W, b min λ max L (W, b, λ) s . t . λ^{(i)} \geq 0 (i = 1, 2, \dots, N)$

假设直接对无约束原问题 进行求解，那么按照求解顺序需要先求解 $\mathop{\max}\limits_{\lambda} \mathcal L(\mathcal W,b,\lambda)$ 的结果，但是该式子中的变量 $\lambda$ 存在约束条件，因此，我们尝试先从无约束的 $\mathcal W,b$ 开始求解。这需要将 无约束原问题转化为对偶问题：
至此，对偶问题表示如下：
$⎩ ⎨ ⎧ λ max W, b min L (W, b, λ) s . t . λ^{(i)} \geq 0 (i = 1, 2, \dots, N)$
在无约束条件的情况下，无约束原问题的目标函数与对偶问题的目标函数必然存在如下关系：
$\mathop{\max}\limits_{\lambda}\mathop{\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b,\lambda) \leq \mathop{\min}\limits_{\mathcal W,b}\mathop{\max}\limits_{\lambda} \mathcal L(\mathcal W,b,\lambda)$
并称之为弱对偶关系。与之对应的是强对偶关系：
$\mathop{\max}\limits_{\lambda}\mathop{\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b,\lambda) = \mathop{\min}\limits_{\mathcal W,b}\mathop{\max}\limits_{\lambda} \mathcal L(\mathcal W,b,\lambda)$
可以看出，强对偶关系是弱对偶关系的一种 特殊情况，弱对偶关系上升至强对偶关系需要满足什么条件？本节将详细介绍这个条件—— $K K T$ 条件。

由于无约束原问题满足 $K K T$ 条件，因此，顺利成章地将无约束问题转化为对偶问题。此时的 $\mathop{\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b,\lambda)$ 无约束条件限制，分别对 $\mathcal W,b$ 求解偏导，得到 仅关于变量 $\lambda$ 的拉格朗日函数：
这里将 $\max$ 和 $-\frac{1}{2}$ 合并为 $\min$ 和 $\frac{1}{2}$ ；
$\end{cases}$

模型求解

继续观察，本质上是仅关于 $\lambda$ 的包含两个约束条件的最小化问题。

其中，变量 $\lambda^{(i)},\lambda^{(j)} \in \{\lambda^{(1)},\lambda^{(2)},\cdots,\lambda^{(N)}\}$ ， $y^{(i)},y^{(j)} \in \{-1,1\}$ ，均为标量、常数； $\left({x^{(i)}}\right)^{T}x^{(j)}$ 可以写为：
$\left({x^{(i)}}\right)^{T}x^{(j)} = (x_1^{(i)},x_2^{(i)},\cdots,x_p^{(i)}) = x_1^{(i)}x_1^{(j)} + x_2^{(i)}x_2^{(j)} + \cdots + x_p^{(i)}x_p^{(j)}$
其结果也是一个标量、常数；因此 目标函数只包含 $\lambda$ 的一次项和二次项；
约束条件中变量是一次的，即仿射函数；且为不等式约束，实际上此时的优化问题依然是一个凸二次规划问题。和原问题相似，同样可以使用类似 $Q P$ 方法进行求解。

本节将使用 $K K T$ 条件求解最优模型以及最优超平面。

$K K T$ 条件介绍

$K K T$ 条件的作用：它是原问题、对偶问题之间具有强对偶关系的充分必要条件。
下面将进行论证：

场景描述

已知一个关于变量 $\mathcal X$ 的原问题表示如下：
$\end{cases}$
观察发现，该原问题包含 $M + N$ 个约束条件：其中包含 $M$ 个不等式约束和 $N$ 个等式约束。

使用拉格朗日乘数法将原问题转化为无约束原问题。拉格朗日函数 $\mathcal L(\mathcal X ,\lambda,\eta)$ 表示如下：
$\mathcal L(\mathcal X ,\lambda,\eta) = f(\mathcal X) + \sum_{i=1}^M \lambda_im_i(\mathcal X) + \sum_{j=1}^N \eta_jn_j(\mathcal X)$
对应的无约束原问题表示如下：
$\end{cases}$

继续将它的对偶问题表示如下：
$\end{cases}$

论证过程

我们可以将无约束原问题和原问题一样，看做关于 $\mathcal X$ 的函数。即 $\lambda,\eta$ 已确定，使得 $\mathcal L(\mathcal X,\lambda,\eta)$ 结果最大的基础上，找到合适的 $\mathcal X^{*}$ ，使 $\mathop{\max}\limits_{\lambda,\eta}\mathcal L(\mathcal X,\lambda,\eta)$ 最小：
$f(\mathcal X) = \mathop{\max}\limits_{\lambda,\eta}\mathcal L(\mathcal X,\lambda,\eta) \\ f(\mathcal X^{*}) = \mathop{\min}\limits_{\mathcal X} f(\mathcal X)$
其中， $\mathcal X^{*}$ 表示 原问题的最优解。同理，我们同样可以将对偶问题看作关于 $\lambda,\eta$ 的函数，即： $\mathcal X$ 已确定，使得 $\mathcal L(\mathcal X,\lambda,\eta)$ 结果最小的基础上，找到合适的 $\lambda^{*},\eta^{*}$ ，使 $\mathop{\min}\limits_{\mathcal X}\mathcal L(\mathcal X,\lambda,\eta)$ 最大：
$g(\lambda,\eta) = \mathop{\min}\limits_{\mathcal X} \mathcal L(\mathcal X,\lambda,\eta) \\ g(\lambda^{*},\eta^{*}) = \mathop{\max}\limits_{\lambda,\eta}g(\lambda,\eta)$

假设对偶问题与原问题之间确定是强对偶关系，即求解 $\lambda^{*},\eta^{*}$ 与求解 $\mathcal X^{*}$ 等价。 $K K T$ 条件给出了 $\lambda^{*},\eta^{*}$ 与 $\mathcal X^{*}$ 的关系。

$K K T$ 条件(Karush-Kuhn-Tucker Conditions)可以包含三个部分：

可行域(约束条件)。在本场景中，分别表示原问题与对偶问题取最优解时的约束条件：
$⎩ ⎪ ⎨ ⎪ ⎧ m_{i} (X^{*}) \leq 0 (i = 1, 2, \dots, M) n_{j} (X^{*}) = 0 (j = 1, 2, \dots, N) λ^{*} \leq 0$
互补松弛原则(Complementary Slackness)
通过基于强对偶关系成立的条件下，推导互补松弛原则的具体格式：
- 由于强对偶关系成立情况下原问题最优解与对偶问题最优解等价。即：
  $\mathop{\max}\limits_{\lambda,\eta} g(\lambda,\eta) = \mathop{\max}\limits_{\lambda,\eta} \mathop{\min}\limits_{\mathcal X} \mathcal L(\mathcal X,\lambda,\eta) = \mathop{\min}\limits_{\mathcal X} \mathop{\max}\limits_{\lambda,\eta} \mathcal L(\mathcal X,\lambda,\eta) = \mathop{\min}\limits_{\mathcal X} f(\mathcal X)$
- 假设存在一组解 $\lambda^{*},\eta^{*}$ ，使得：
  $\mathcal L(\mathcal X,\lambda^{*},\eta^{*}) = \mathop{\max}\limits_{\lambda,\eta} \mathcal L(\mathcal X,\lambda,\eta)$
  与此同时：
  $\mathop{\min}\limits_{\mathcal X} \mathop{\max}\limits_{\lambda,\eta} \mathcal L(\mathcal X,\lambda,\eta) = \mathop{\min}\limits_{\mathcal X} \mathcal L(\mathcal X,\lambda^{*},\eta^{*})$
- 基于 $\mathop{\min}\limits_{\mathcal X} \mathcal L(\mathcal X,\lambda^{*},\eta^{*})$ 的最小值性质，则有：
  $\mathop{\min}\limits_{\mathcal X}\mathcal L(\mathcal X,\lambda^{*},\eta^{*}) \leq \mathcal L(\mathcal X,\lambda^{*},\eta^{*})$
  于此同时，必然存在：
  $\mathcal X^{* }$ 暂时理解为 $\mathcal X$ 可以取到的任意一个值。
  $\mathop{\min}\limits_{\mathcal X}\mathcal L(\mathcal X,\lambda^{*},\eta^{*}) \leq \mathcal L(\mathcal X^{*},\lambda^{*},\eta^{*})$
- 将 $\mathcal L(\mathcal X^{*},\lambda^{*},\eta^{*})$ 展开，有：
  $\mathcal L(\mathcal X^{*},\lambda^{*},\eta^{*}) = f(\mathcal X^{*}) + \sum_{i=1}^{M} \lambda_i^{*}m_i(\mathcal X) + \sum_{j=1}^N\eta_j^{*}n_j(\mathcal X)$
- 基于可行域条件： $n_j(\mathcal X^{*}) = 0 \quad (j=1,2,\cdots,N)$ ，则有：
  $\mathcal L(\mathcal X^{*},\lambda^{*},\eta^{*}) = f(\mathcal X^{*}) + \sum_{i=1}^{M} \lambda_i^{*}m_i(\mathcal X)$
- 又因为可行域条件： ${m_{i} (X^{*}) \leq 0 (i = 1, 2, \dots, M) λ^{*} \leq 0$ ，因此则有：
  两项异号，其结果有上界0。
  $\sum_{i=1}^{M} \lambda_i^{*}m_i(\mathcal X) \leq 0$
  从而有：
  $\mathcal L(\mathcal X^{*},\lambda^{*},\eta^{*}) = f(\mathcal X^{*}) + \sum_{i=1}^{M} \lambda_i^{*}m_i(\mathcal X) \leq f(\mathcal X^{*})$
观察上述推导过程，发现：满足什么条件才能将最后的 $\leq$ 换成 $=$ ，成为真正的强对偶关系？
其核心原因在于：
$\sum_{i=1}^{M} \lambda_i^{*}m_i(\mathcal X) \leq 0$
如果将该式改为： $\sum_{i=1}^{M} \lambda_i^{*}m_i(\mathcal X) = 0$ ，此时就成为真正的强对偶关系。我们称该条件为互补松弛原则。
梯度为0：
观察上述推导过程，发现还有一个 $\leq$ 没有解决：
$\mathop{\min}\limits_{\mathcal X}\mathcal L(\mathcal X,\lambda^{*},\eta^{*}) \leq \mathcal L(\mathcal X^{*},\lambda^{*},\eta^{*})$
该小于号转换为等号需要满足什么条件？
$\mathcal X^{*}$ 是 $\mathcal L(\mathcal X,\lambda^{*},\eta^{*})$ 的最优解。即：
$\frac{\partial \mathcal L(\mathcal X,\lambda^{*},\eta^{*})}{\partial \mathcal X} = 0 |_{\mathcal X = \mathcal X^{*}}$

整理，互补松弛原则共包含3个部分，5个条件：

可行域(约束条件)；
$m_i(\mathcal X^*)\leq 0;n_j(\mathcal X^*) \leq 0;\lambda^* \geq 0$
互补松弛原则；
$\lambda_im_i = 0$
梯度为0；
$\frac{\partial \mathcal L(\mathcal X,\lambda^{*},\eta^{*})}{\partial \mathcal X} = 0 |_{\mathcal X = \mathcal X^{*}}$

利用 $K K T$ 条件求解最优参数；

结合最大间隔分类器产生的原问题与对偶问题，我们列出满足强对偶关系需要的 $K K T$ 条件：

可行域(约束条件)：
$y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right) \leq 0 \quad (i=1,2,\cdots,N)\\ \lambda^{(i)} \geq 0 \quad (i=1,2,\cdots,N)\\ \sum_{i=1}^N \lambda^{(i)}y^{(i)} = 0$
拉格朗日函数 $\mathcal L(\mathcal W,b,\lambda)$ 对原问题、对偶问题对应变量梯度为0：
$\frac{\partial \mathcal L(\mathcal W,b,\lambda)}{\partial \mathcal W} \triangleq 0 \\ \frac{\partial \mathcal L(\mathcal W,b,\lambda)}{\partial b} \triangleq 0 \\ \frac{\partial \mathcal L(\mathcal W,b,\lambda)}{\partial \lambda} \triangleq 0$
互补松弛原则：
$\lambda^{(i)}\left[1 - y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right)\right] = 0$

这里观察互补松弛原则在求解最优模型中起到的作用：
首先观察 $\left[1 - y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right)\right]$ 具有什么实际意义？
在函数间隔约束部分，第一次产生这种格式。当时的设定是：
$\mathop{\min}\limits_{x^{(i)} \in \mathcal X} y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right) = 1$
基于该式，我们可以这样认定：满足 $y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right) = 1$ 的样本点是 $x^{(i)},y^{(i)})$ 是在所有样本均正确分类的前提下，与分类直线(超平面)距离最近的点。
真实情况下，基于样本规模的大小，可能存在若干个距离相同且均最近的若干个样本点；但不可否认的是：至少包含一个。因为只要存在样本，必定存在距离最小的一个。

这些样本点，它具有什么样的特殊性？观察互补松弛原则，可以发现一旦：
$y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right) = 0$
那么 互补松弛原则中对应的 $\lambda^{(i)}$ 可以不为0。基于该思路，可以继续引出两条推测：

$\lambda^{(i)}$ 一旦不为0，那么 $y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right) = 0$ 必然成立，它对应的样本点 $\left(x^{(i)},y^{(i)}\right)$ 一定到分类直线(超平面) 距离最近；
相反，如果不是距离分类直线(超平面) 最近的样本点，那么 $y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right) < 0$ ，它对应的 $\lambda^{(i)} = 0$ 必然成立。

假设存在某样本点 $x^{(k)},y^{(k)})$ 使得：
$y^{(k)}\left(\mathcal W^{T}x^{(k)} + b\right) = 0$
由于最优解 $\mathcal W^{*}$ 通过 $\frac{\partial \mathcal L(\mathcal W,b,\lambda)}{\partial \mathcal W} \triangleq 0$ 求解最优值为：
上一节的推论结果传送门
$\mathcal W^{*} = \sum_{i=1}^N \lambda^{(i)}y^{(i)}x^{(i)}$
最后，将 $\mathcal W^{*}$ 带入 $y^{(k)}\left(\mathcal W^{T}x^{(k)} + b\right) = 0$ 中，求出最优解 $b^{*}$ ：
$y^{(k)}\left(\mathcal W^{T}x^{(k)} + b\right) = 1$
由于 $y^{(k)} \in \{-1,1\}$ ，左右两边同乘 $y^{(k)}$ ，等式左边 $\left(y^{(k)}\right)^2 = 1$ 恒成立，省略；等式右侧剩余一个 $y^{(k)}$ ：
$\mathcal W^{T}x^{(k)} + b = y^{(k)}$
最终 $b^{*}$ 结果表示如下：
$b^{*} = y^{(k)} - (W^{*})^{T} x^{(k)} = y^{(k)} - i = 1 \sum N [λ^{(i)} y^{(i)} (x^{(i)})^{T}] x^{(k)}$

至此，我们得到了构成分类直线(超平面)的两个参数： $\mathcal W^{*},b^*$ ；最终 分类直线(超平面) 的表达式为：
$(\mathcal W^*)^{T}\mathcal X + b^* = 0$
对应模型表示为：
$f(\mathcal W,b) = sign\left[(\mathcal W^*)^{T}\mathcal X + b^*\right]$

至此，硬间隔 $S V M$ 最优参数求解过程结束。下一节将介绍软间隔 $S V M$ 。

相关阅读:
[含lw+源码等]计算机毕业论文Java项目源码下载微信小程序记事本+后台管理系统[包运行成功]
[Linux 基础] Linux编辑器Vim，你值得拥有
干货 | 5719个字详解低代码在某银行&券商的实践
知识图谱在RAG中的应用探讨
js基础笔记学习256navigator
希望计算机专业同学都知道这些老师
关于org.tio.core.udp的UDP交互使用示例
关于IDEA中gradle项目bootrun无法进入断点以及gradle配置页面不全的解决方案
使用jmx exporter采集kafka指标
【Arma3脚本教程】一、基本介绍

原文地址：https://blog.csdn.net/qq_34758157/article/details/126685843