机器学习笔记之高斯过程(三)高斯过程回归——函数空间角度

机器学习笔记之高斯过程——高斯过程回归[函数空间角度]

引言

引言

上一节介绍了从权重空间角度认识高斯过程回归。本节将介绍从函数空间角度认识高斯过程回归。

回顾：高维转换处理非线性回归任务过程

从权重空间(Weight-Space)视角观察高斯过程回归和高斯过程(Gaussian Process)本身没有直接联系。其本质上是 针对非线性回归任务，使用贝叶斯线性回归与核技巧(Kernal Trick)相结合的方式进行求解：

针对非线性回归任务，使用非线性转换(Non-Linear Transformation) $\phi(\cdot)$ 将原始特征空间 $\mathcal X \in \mathbb R^p$ 映射到高维空间：

$X \in R^{p} \to ϕ (X) \in R^{q} q ≫ p$
由于样本特征空间的变化，因而影响随机变量 $\mathcal W$ 的后验概率分布 $\mathcal P(\mathcal W \mid Data)$ ：
$\mathcal P(\mathcal W \mid Data) \sim \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) \to {μW=A−1[ϕ(X)]TYσ2ΣW=A−1A=[ϕ(X)]Tϕ(X)σ2+[Σ−1prior]q×q$
$P (W ∣ D a t a) \sim N (μ_{W}, Σ_{W}) \to ⎩ ⎪ ⎨ ⎪ ⎧ μ_{W} = \frac{A ^{- 1} [ ϕ ( X ) ] ^{T} Y}{σ ^{2}} Σ_{W} = A^{- 1} A = \frac{[ ϕ ( X ) ] ^{T} ϕ ( X )}{σ ^{2}} + [Σ_{p r i o r}^{- 1}]_{q \times q}$
从而对经过非线性转换后的给定(未知)样本 $\phi(\hat x)$ 的标签 $f[\phi(\hat x)]$ 进行预测(Prediction)：
- 推导过程复杂的部分是 $\mathcal A^{-1}$ 的求解，关于 $\mathcal A^{-1}$ 的求解过程详见上一节.
- 这里预测的是'不含高斯噪声'的 $f[\phi(\hat x)]$ 而不是 $\hat y$ ,如果要预测 $\hat y$ 需要在协方差中加上 $\sigma^2$ .
  $P [ f [ ϕ ( x ^ ) ] ∣ D a t a , ϕ ( x ^ ) ] ∼ N ( [ ϕ ( x ^ ) ] T μ W , [ ϕ ( x ^ ) ] T Σ W ⋅ ϕ ( x ^ ) ) = N { [ ϕ ( x ^ ) ] T ( A − 1 [ ϕ ( X ) ] T Y σ 2 ) , [ ϕ ( x ^ ) ] T A − 1 ⋅ ϕ ( x ^ ) } P[f[ϕ(ˆx)]∣Data,ϕ(ˆx)]∼N([ϕ(ˆx)]TμW,[ϕ(ˆx)]TΣW⋅ϕ(ˆx))=N{[ϕ(ˆx)]T(A−1[ϕ(X)]TYσ2),[ϕ(ˆx)]TA−1⋅ϕ(ˆx)}$
最终展开结果表示如下：
其中 $[\Sigma_{prior}]_{q \times q}$ 表示先验分布的协方差矩阵； $\mathcal I_{q \times q}$ 表示单位矩阵。 $\mathcal K(\mathcal X,\mathcal X)_{q \times q}$ 表示 $[\phi(\mathcal X)]^T\Sigma_{prior}\phi(\mathcal X)$ .
$\mathcal P[f(\hat x) \mid Data,\hat x] \sim \mathcal N(\mu_{\hat x}.\Sigma_{\hat x}) \\ {μˆx=[ϕ(ˆx)]TΣprior[ϕ(X)]T[K(X,X)+σ2I]−1Σˆx=[ϕ(ˆx)]T⋅{Σprior−Σprior[ϕ(X)]T[K(X,X)+σ2I]−1ϕ(X)Σprior}⋅ϕ(ˆx)$
P[f(x^)∣Data,x^]∼N(μx^.Σx^){μx^=[ϕ(x^)]TΣprior[ϕ(X)]T[K(X,X)+σ2I]−1Σx^=[ϕ(x^)]T⋅{Σprior−Σprior[ϕ(X)]T[K(X,X)+σ2I]−1ϕ(X)Σprior}⋅ϕ(x^)
针对公式中出现的复杂的内积问题，使用核技巧(Kernal Trick)进行处理。假设存在关于变量 $x, x^{'}$ 的核函数 $\mathcal K(x,x')$ 表示如下：
这里 $[\Sigma_{prior}]_{q \times q}$ 至少是半正定矩阵。

$K (x, x^{'}) = [ϕ (x)]^{T} Σ_{p r i o r} ϕ (x^{'}) = [Σ_{p r i o r} ϕ (x)]^{T} [Σ_{p r i o r} ϕ (x^{'})] = ⟨ Σ_{p r i o r} ϕ (x), Σ_{p r i o r} ϕ (x^{'}) ⟩$
与核函数的处理方式相同，直接规避了非线性函数 $\phi(\cdot)$ 的高维复杂运算。直接对其内积进行求解。

回顾：高斯过程

高斯过程(Gaussian Process)本质上式一组高维随机变量组成的集合：
$\{\xi_{t}\}_{t \in \mathcal T} = \{\cdots,\xi_{t_1},\xi_{t_2},\cdots,\xi_{t_n},\cdots\} \quad (t_1,t_2\cdots,t_n \in \mathcal T)$
其中 $\mathcal T$ 表示连续域，它可能是时间/空间中的连续域。对于高斯过程的定义可描述为：对于任意 $\{t_1,t_2,\cdots,t_n\} \in \mathcal T$ 对应随机过程 $\{\xi_t\}_{t \in \mathcal T}$ 的子集： $\xi_{t_1 \to t_n} = \{\xi_{t_1},\xi_{t_2},\cdots,\xi_{t_n}\}$ 服从某一高斯分布 $\mathcal N(\mu_{t_1 \to t_n},\Sigma_{t_1 \to t_n})$ ,那么称 $\{\xi_{t}\}_{t \in \mathcal T}$ 是高斯过程：
由于 $\in \mathcal T$ 是稠密的(可以理解为‘时间间隔无限趋近于0，依然存在随机变量’)，从而可以看作是连续域 $\mathcal T$ 内的‘无限维’高斯分布。
$\{\xi_t\}_{t \in \mathcal T} \sim \mathcal G\mathcal P[m(t),\mathcal K(t,s)] \quad (s,t \in \mathcal T)$
需要注意的是，均值函数(Mean-Function) $m (t)$ 和 方差函数(Covariance Function) $\mathcal K(s,t)$ 它们均是基于函数形式的表达，这说明：不同时刻/状态下的均值/协方差结果不是固定值，而是表示为关于 $s, t$ 的函数。
$\mathcal X \in \mathbb R^p \to \mathcal X \sim \mathcal N(\mu_p,\Sigma_{p \times p})$

相反，如高斯网络(Gaussian Network)，一旦随机变量集合 $\mathcal X$ 确定了，那么对应的概率图模型就是静态模型，对应的期望结果 $\mu_p$ 和协方差矩阵 $\Sigma_{p \times p}$ 就是恒定不变的，从概率图的角度观察各随机变量结点之间的关联关系也是确定的。

权重空间视角——模型参数 $\mathcal W$ 的变化

基于线性回归模型(无高斯噪声) $f(\mathcal X) = \mathcal X^T\mathcal W$ ，对特征空间 $\mathcal X \in \mathbb R^p$ 进行非线性高维转换： $\mathcal X \to \phi(\mathcal X) \in \mathbb R^q$ ；
给定模型参数 $\mathcal W$ 一个先验分布：
由于 $\mathcal X$ 已经执行了‘非线性转换’，因此此时的 $\mathcal W$ 是 $q$ 维随机变量，对应的协方差矩阵 $\Sigma_{prior}$ 同样需要时 $\times q$ 的格式。
$\mathcal W \sim \mathcal N(0,[\Sigma_{prior}]_{q \times q})$
因此，线性模型 $f(\mathcal X)$ 的期望 $\mathbb E[f(\mathcal X)]$ 可表示如下：
这里关注的是 $\mathcal W$ 的变化，因此这里将 $\phi(\mathcal X)$ 看作常数。
$\mathbb E[f(\mathcal X)] = \mathbb E\left\{[\phi(\mathcal X)]^T \mathcal W\right\} = [\phi(\mathcal X)]^T \mathbb E[\mathcal W] = [\phi(\mathcal X)]^T \cdot 0 = 0$
对于任意 $x^{(i)},x^{(j)} \in \mathbb R^p$ ，对应函数结果的协方差 $\left[f(x^{(i)}),f(x^{(j)})\right]$ 表示如下：
$Cov[f(x(i)),f(x(j))]=E{[f(x(i))−E[f(x(i))]]⋅[f(x(j))−E[f(x(j))]]}=E{[f(x(i))−0]⋅[f(x(j))−0]}=E[f(x(i))⋅f(x(j))]=E[ϕ(x(i))TW⋅ϕ(x(j))TW]$

C o v [f (x^{(i)}), f (x^{(j)})] = E {[f (x^{(i)}) - E [f (x^{(i)})]] \cdot [f (x^{(j)}) - E [f (x^{(j)})]]} = E {[f (x^{(i)}) - 0] \cdot [f (x^{(j)}) - 0]} = E [f (x^{(i)}) \cdot f (x^{(j)})] = E [ϕ (x^{(i)})^{T} W \cdot ϕ (x^{(j)})^{T} W]

由于

\phi(x^{(j)})^T \mathcal W

结果是一个实数，因而

\left[\phi(x^{(j)})^T \mathcal W\right]^T = \mathcal W^T\phi(x^{(j)})

等于

\phi(x^{(j)})^T \mathcal W

自身。因而有：

\Delta

表示上述推导结果。

Δ = E [ϕ (x^{(i)})^{T} W \cdot W^{T} ϕ (x^{(j)})] = [ϕ (x^{(i)})]^{T} \cdot E [W \cdot W^{T}] \cdot ϕ (x^{(j)})

观察

\mathbb E[\mathcal W \cdot \mathcal W^T]

，它实际上就是：

E[W⋅WT]=E[(W−0)⋅(WT−0)]=E{[W−E[W]]⋅[W−E[W]]T}=Cov(W,W)=Σprior

至此，关于

f(x^{(i)})

和

f(x^{(j)})

的协方差结果

\left[f(x^{(i)}),f(x^{(j)})\right]

表示如下：

C o v [f (x^{(i)}), f (x^{(j)})] = [ϕ (x^{(i)})]_{1 \times q}^{T} \cdot [Σ_{p r i o r}]_{q \times q} \cdot [ϕ (x^{(j)})]_{q \times 1} = K (x^{(i)}, x^{(j)})

小插曲：记号函数 $\mathcal K$ 是核函数的必要性证明

继续将 $Cov\left[f(x^{(i)}),f(x^{(j)})\right]$ 展开，有：
在权重空间角度文章的末尾介绍的是‘记号函数’ $\mathcal K(\cdot,\cdot)$ 的充分性证明。这里顺势补充一下必要性证明。

C o v [f (x^{(i)}), f (x^{(j)})] = (x_{1}^{(i)}, x_{2}^{(i)}, \dots, x_{q}^{(i)}) ⎝ ⎜ ⎜ ⎜ ⎛ Σ_{p r i o r}^{11}, Σ_{p r i o r}^{12}, \dots, Σ_{p r i o r}^{1 q} Σ_{p r i o r}^{21}, Σ_{p r i o r}^{22}, \dots, Σ_{p r i o r}^{2 q} ⋮ Σ_{p r i o r}^{q 1}, Σ_{p r i o r}^{q 2}, \dots, Σ_{p r i o r}^{q q} ⎠ ⎟ ⎟ ⎟ ⎞ ⎝ ⎜ ⎜ ⎜ ⎜ ⎛ x_{1}^{(j)} x_{2}^{(j)} ⋮ x_{q}^{(j)} ⎠ ⎟ ⎟ ⎟ ⎟ ⎞ Σ_{p r i o r}^{i j} = C o v (w_{i}, w_{j}); w_{i}, w_{j} \in W = [k = 1 \sum q x_{k}^{(i)} Σ_{p r i o r}^{k 1}, \dots, k = 1 \sum q x_{k}^{(i)} Σ_{p r i o r}^{k q}] ⎝ ⎜ ⎜ ⎜ ⎜ ⎛ x_{1}^{(j)} x_{2}^{(j)} ⋮ x_{q}^{(j)} ⎠ ⎟ ⎟ ⎟ ⎟ ⎞ = l = 1 \sum q k = 1 \sum q x_{k}^{(i)} \cdot Σ_{p r i o r}^{k l} \cdot x_{l}^{(j)}

其中，

x_k^{(i)},\Sigma_{prior}^{kl},x_l^{(j)}

均表示实数，因而有：

l = 1 \sum q k = 1 \sum q x_{k}^{(i)} \cdot Σ_{p r i o r}^{k l} \cdot x_{l}^{(j)} = l = 1 \sum q k = 1 \sum q x_{l}^{(j)} \cdot Σ_{p r i o r}^{k l} \cdot x_{k}^{(i)} \Rightarrow C o v [f (x^{(i)}), f (x^{(j)})] = C o v [f (x^{(j)}), f (x^{(i)})] \Rightarrow K (x^{(i)}, x^{(j)}) = K (x^{(j)}, x^{(i)})

这意味着核矩阵

\mathbb K

是实对称矩阵，那么它必然是半正定的：

\mathbb K = [K(x(1),x(1)),K(x(1),x(2)),⋯,K(x(1),x(N))K(x(2),x(1)),K(x(2),x(2)),⋯,K(x(2),x(N))⋮K(x(N),x(1)),K(x(N),x(2)),⋯,K(x(N),x(N))]_{N \times N}

至此，证明记号

\mathcal K

函数是正定核函数。
正定核函数必要性证明参考传送门

言归正传

根据 $Cov\left[f(x^{(i)}),f(x^{(j)})\right] = \mathcal K(x^{(i)},x^{(j)})$ ，这意味着：如果将 $\{f(\mathcal X)\}_{x \in \mathbb R^p} = \{f(x_1),f(x_2),\cdots,f(x_p)\}$ 本身看做一个随机变量集合，那么这个随机变量本身的协方差结果可以由核函数表示。

回顾高斯过程的定义式： $\{\xi_t\}_{t \in \mathcal T} \sim \mathcal G\mathcal P[m(t),\mathcal K(t,s)] \quad (s,t \in \mathcal T)$ ，其中 $s, t$ 本身不是随机变量，它们仅是描述连续域中状态/时刻的下标(index)，和随机变量 $\xi$ 之间不存在关系。因而可以将高斯过程定义式表示为如下形式：
${{f(X)}X∈Rp∼GP[m(X),K(x(i),x(j))]x(i),x(j)∈X{ξt}t∈T∼GP[m(t),K(t,s)](s,t∈T)$

{{f (X)}_{X \in R^{p}} \sim G P [m (X), K (x^{(i)}, x^{(j)})] x^{(i)}, x^{(j)} \in X {ξ_{t}}_{t \in T} \sim G P [m (t), K (t, s)] (s, t \in T)

小结

对比一下两种高斯过程的表达：

$t$ 和 $\xi_t$ 之间不存在关联关系，只是一个下标的表示；而 $\mathcal X$ 和 $f(\mathcal X)$ 之间存在明确的函数关系；
$\xi_t$ 表示连续域 $\mathcal T$ 中 $t$ 时刻的一个高维随机变量；而 $f(\mathcal X)$ 表示 $p$ 维实数域 $\mathbb R^p$ 中某随机变量 $\mathcal X$ 对应的高维随机变量；
均值函数、方差函数：这里以方差函数为例，它们均表示连续域中随机变量集合的核矩阵：
$K(s,t)⇒[K(ξt1,ξt1),K(ξt1,ξt2),⋯,K(ξt1,ξtn)K(ξt2,ξt1),K(ξt2,ξt2),⋯,K(ξt2,ξtn)⋮K(ξtn,ξt1),K(ξtn,ξt2),⋯,K(ξtn,ξtn)]n×ns,t∈{t1,t2,⋯,tn}K(x(i),x(j))⇒[K(x(1),x(1)),K(x(1),x(2)),⋯,K(x(1),x(N))K(x(2),x(1)),K(x(2),x(2)),⋯,K(x(2),x(N))⋮K(x(N),x(1)),K(x(N),x(2)),⋯,K(x(N),x(N))]N×Nx(i),x(j)∈X$

关于给定样本 $\hat x$ 的预测任务中：

权重空间角度关注模型参数 $\mathcal W$ ，对预测任务的表达式如下：
$\mathcal P(\hat y \mid \hat x,Data) = \int_{\mathcal W \mid Data} \mathcal P(\hat y \mid \mathcal W,\hat x) \cdot \mathcal P(\mathcal W \mid Data) d\mathcal W$
函数空间角度关注 $f(\mathcal X)$ 自身，将 $f(\mathcal X) = [\phi(\mathcal X)]^T \mathcal W$ 自身看作随机变量，对预测任务的表达式如下：
$\mathcal P(\hat y \mid Data,\hat x) = \int_{f(\mathcal X)} \mathcal P(\hat y \mid f(\mathcal X),\hat x) \cdot \mathcal P[f(\mathcal X) \mid Data]\text{ }df(\mathcal X)$

函数空间角度与权重空间角度的核心差别在于 $\mathcal K(x^{(i)},x^{(j)})$ 的表示上。

权重空间角度需要将 $x^{(i)},x^{(j)} \to \phi(x^{(i)}),\phi(x^{(j)})$ ，然后通过高维转换后的样本维度重新对 $\mathcal W$ 的先验分布 $\mathcal P(\mathcal W)$ 进行设定 $\to \mathcal N(0,\Sigma_{prior})$ 。再凑成 $\mathcal K(x^{(i)},x^{(j)}) = \phi(x^{(i)})\Sigma_{prior}\phi(x^{(j)})$ 的格式，去求解 $\mathcal W$ 的后验概率分布 $\mathcal P(\mathcal W \mid Data)$ ;
函数空间角度直接用 $Cov[f(x^{(i)}),f(x^{(j)})]$ 表示 $\mathcal K(x^{(i)},x^{(j)})$ ，从而并不需要单独求解 $\mathcal W$ ，而是直接求解 $f(x^{(i)}) = [\phi(x^{(i)})]^T\mathcal W,f(x^{(j)}) = [\phi(x^{(j)})]^T\mathcal W$ 即可。在预测任务中，直接通过 $[\phi(x)]^T\mathcal W$ 替代 $\mathcal W$ 执行预测任务。

相关阅读:
队列--环形数组实现
Android 面（被）试（锤）现场还原~
数据库去重（MYSQL和ORACLE）
2.安装conda python库
Flink
C语言动态内存管理
Ubuntu 22.04 配置VirtualBox安装Windows 10虚拟机
【算法训练-二叉树六】【路径和计算】路径总和I、路径总和II、路径总和III、二叉树的最大路径和
密码学系列（四）——对称密码1
乘方【NOIP 2022 普及组】

原文地址：https://blog.csdn.net/qq_34758157/article/details/128098749