机器学习笔记之高斯分布(五)推断任务之边缘概率分布与条件概率分布

机器学习笔记之高斯分布——推断任务之边缘概率分布与条件概率分布

引言

引言

上一节介绍了高斯分布概率模型相关的推断问题，并详细介绍了给定联合概率分布求解条件概率分布。本节将继续介绍推断任务——基于随机变量之间存在线性关系的条件下，求解条件概率与边缘概率。

回顾：

卡尔曼滤波

卡尔曼滤波(Kalman Filter)本身是线性高斯动态模型(Linear Gaussian Dynamic Model)的代表，它的性质表示在如下过程：

状态转移概率 $\mathcal P(i_t \mid i_{t-1})$ ：
需要注意的点：卡尔曼滤波是‘动态模型’的一种表达，它依然受到‘齐次马尔可夫假设’的约束。
以一阶齐次马尔可夫假设为例，线性高斯动态模型中的相邻隐变量之间存在线性关系，并且对应噪声 $\epsilon$ 服从高斯分布：
$i_t = \mathcal A \cdot i_{t-1} + \mathcal B + \epsilon \quad \epsilon \sim \mathcal N(0,\mathcal Q)$
对应概率分布表示如下：
这种表示方法需要注意。它写的是 $\mathcal N(\mathcal A \cdot i_{t-1} + \mathcal B,\mathcal Q)$ 而不是 $\mathcal A \mu + \mathcal B$ 。因为 $\mathcal N(\mathcal A \mu + \mathcal B,\mathcal A\mathcal Q\mathcal A^T)$ 表示 $i_t$ 的边缘概率分布。并且，这种写法意味着 $i_{t-1}$ 是已知的，可观测的。
${P(it−1)∼N(μ,Q)P(it∣it−1)∼N(A⋅it−1+B,Q)$
{P(it−1)∼N(μ,Q)P(it∣it−1)∼N(A⋅it−1+B,Q)
这个式子表示的是关于随机变量自身的线性关系还是期望的线性关系？使用例子描述一下：
- 已知一个二维高斯分布，它各维度服从的高斯分布如下：
  $x_1 \sim \mathcal N(0,1) \quad x_2 \sim \mathcal N(0,1.5)$
  对应图像表示如下：
- 定义一个线性关系： $\mathcal Y = 2\mathcal X + 2$ ，上述样本点在线性计算之后的分布表示如下(橙色样本点)：
  
  注意，这里仅对原始的样本结果(蓝色样本点)进行线性计算，没有添加其他噪声。从图像中明显观察到：均值已经发生了变化(两团样本的密集区域没有重合在一起)。
  均值由0变成了 2x0+2=2。
  因此， $\mathcal P(i_{t} \mid i_{t-1}) \sim \mathcal N(\mathcal A \cdot i_{t-1} + \mathcal B,\mathcal Q)$ 既表示随机变量的线性关系，也表示期望的线性关系。
  需要再次强调， $\mathcal P(i_{t}),\mathcal P(i_t \mid i_{t-1})$ 它们两个代表不同的高斯分布。而 $\mathcal A\mathcal Q\mathcal A^T$ 是‘基于’ $i_t = \mathcal A \cdot i_{t-1} + \mathcal B$ 线性计算的关于 $i_t$ 的边缘概率分布 $\mathcal P(i_t)$ 的协方差结果。
发射概率 $\mathcal P(o_t \mid i_t)$
隐变量与对应时刻观测变量之间存在线性关系，斌且噪声服从高斯分布：
${ot=C⋅it+D+δδ∼N(0,R)P(ot∣it)∼N(C⋅it+D,R)$
${o_{t} = C \cdot i_{t} + D + δ δ \sim N (0, R) P (o_{t} ∣ i_{t}) \sim N (C \cdot i_{t} + D, R)$

高斯分布与线性计算的相关定理

当某随机变量 $\mathcal X$ 服从高斯分布，并且随机变量 $\mathcal Y$ 与随机变量 $\mathcal X$ 之间存在线性关系时：
${X∼N(μ,Σ)Y=AX+B$

{X \sim N (μ, Σ) Y = A X + B

那么随机变量

\mathcal Y

同样服从高斯分布：
需要注意这里的表示，随机变量

\mathcal Y

的概率分布服从高斯分布，这里的‘概率分布’仅仅是

\mathcal Y

自身的分布，可以理解为‘边缘概率分布’。

\mathcal Y \sim \mathcal N(\mathcal A\mu + \mathcal B,\mathcal A \Sigma\mathcal A^T)

这同样引出期望、协方差在线性计算中的表达：

{EP(Y)=EP(X)[AX+B]=A⋅EP(X)[X]+B=Aμ+BVar(Y)=Var(AX+B)=Var(AX)+Var(B)=Var(AX)=AΣAT

任务目标与推导过程

任务目标

给定随机变量 $\mathcal X$ 的概率分布结果与随机变量 $\mathcal Y$ 基于 $\mathcal X$ 的概率分布结果：
其中 $\Lambda,\mathcal L$ 分别表示 $\mathcal P(\mathcal X),\mathcal P(\mathcal Y \mid \mathcal X)$ 概率分布的精度矩阵(Precision Matrix)。它本身表示‘协方差矩阵’的逆矩阵。在高斯图模型中对非零边进行编码。
这里仅需要知道 $\mathcal P(\mathcal X),\mathcal P(\mathcal Y \mid \mathcal X)$ 的协方差矩阵使用精度矩阵表示，并且 $\Lambda^{-1},\mathcal L^{-1}$ 之间不存在关联即可。在后续的‘高斯网络’中可能会介绍到。

P (X) P (Y ∣ X) \sim N (μ, Λ^{- 1}) \sim N (A X + B, L^{- 1})

基于上述条件，求解随机变量

\mathcal Y

的边缘概率分布

\mathcal P(\mathcal Y)

与条件概率分布

\mathcal P(\mathcal X \mid \mathcal Y)

。

求解边缘概率分布

根据上述条件以及回顾中提到的 线性高斯模型中随机变量之间的关联关系，随机变量 $\mathcal X,\mathcal Y$ 之间关联关系表示如下：
其中这里的 $\epsilon$ 表示噪声的分布。
$\mathcal Y = \mathcal A \mathcal X + \mathcal B + \epsilon \quad \epsilon \sim \mathcal N(0,\mathcal L^{-1})$
因此随机变量 $\mathcal Y$ 的期望结果表示如下：

E_{P (Y)} [Y] = E_{P (X)} [A X + B + ϵ] = E_{P (X)} [A X + B] + 0 E [ϵ] = A μ + B

随机变量

\mathcal Y

的协方差结果表示如下：

Var (Y) = Var (A X + B + ϵ) = Var (A X + B) + Var (ϵ) = A Λ^{- 1} A^{T} + L^{- 1}

至此，随机变量

\mathcal Y

的边缘概率分布

\mathcal P(\mathcal Y)

服从如下分布：

\mathcal P(\mathcal Y) \sim \mathcal N(\mathcal A \mu + \mathcal B, \mathcal A \Lambda^{-1}\mathcal A^T + \mathcal L^{-1})

求解条件概率分布

不同上一节中给定联合概率分布，求解条件概率分布，此时给定的是 $\mathcal P(\mathcal Y \mid \mathcal X),\mathcal P(\mathcal X)$ ，求解 $\mathcal P(\mathcal X \mid \mathcal Y)$ 。
由于边缘概率分布 $\mathcal P(\mathcal Y)$ 已经求出，至此定义一个 $\mathcal Z$ 向量将随机变量 $\mathcal X,\mathcal Y$ 组合成一个向量：
$\mathcal Z = (\mathcal X,\mathcal Y)^T$
因此， $\mathcal Z$ 的概率分布表示如下：
直接可以将 $\mathcal Z$ 的概率分布看成‘联合概率分布’。
$\mathcal Z = (XY)$

\sim \mathcal N\left(

,

\right)

Z = (X Y) \sim N ([μ A \cdot μ + B], [Λ^{- 1}, Δ Δ^{T}, L^{- 1} + A Λ^{- 1} A^{T}])

对于这个联合概率分布，期望部分全部是已知的，协方差部分中的

Cov(\mathcal X,\mathcal Y),Cov(\mathcal Y,\mathcal X)

部分是未知的(

\Delta

表示)。当然，只要求解出一个，另一个自然也就求解出来(转置关系)。

根据协方差的定义， $Cov(\mathcal X,\mathcal Y)$ 表示如下：
为什么要加转置： $\mathcal X,\mathcal Y$ 可能并不是‘相同大小’的随机变量集合，不加转置无法执行乘法运算。
$Δ = C o v (X, Y) = E [(X - E [X]) (Y - E [Y])^{T}]$
将 $\mathbb E[\mathcal X] = \mu,\mathbb E[\mathcal Y] = \mathcal A \mu + \mathcal B,\mathcal Y = \mathcal A \mathcal X + \mathcal B + \epsilon$ 分别代入上式：
矩阵的乘法分配律~
$Δ=E[(X−μ)(AX+B+ϵ−Aμ−B)T]=E{(X−μ)[AX−Aμ+ϵ]T}=E[(X−μ)(AX−Aμ)T]+E[(X−μ)ϵT]$
观察第二项： $\mathbb E[(x - \mu)\epsilon^T]$ ，展开有：
$\epsilon \sim \mathcal N(0,\mathcal L^{-1})$ ，因此有 $\mathbb E[\epsilon^T] = 0$
$E [(x - μ) ϵ^{T}] = (X - μ) E (ϵ^{T}) = (X - μ) \times 0 = 0$
因此，原式 $\Delta = \mathbb E[(\mathcal X - \mu)(\mathcal A \mathcal X - \mathcal A\mu)^T]$ ，提出公因式 $\mathcal A$ ，展开如下：
$\mathcal A$ 是线性计算中的系数，是常数。
$Δ=E{(X−μ)[A(X−μ)]T}=E[(X−μ)(X−μ)TAT]=E[(X−μ)(X−μ)T]AT$
其中 $\mathbb E[(\mathcal X - \mu)(\mathcal X - \mu)^T]$ 就是随机变量 $\mathcal X$ 的协方差矩阵 $\text{Var}(\mathcal X)$ 。至此，的 $Cov(\mathcal X,\mathcal Y)$ 的最终表示结果为：
$C o v (X, Y) = Var (X) \cdot A^{T} = Λ^{- 1} A^{T}$

同理， $Cov(\mathcal Y,\mathcal X) = \left(\Lambda^{-1}\mathcal A^T\right)^T = \mathcal A(\Lambda^{-1})^T$ 。将 $Cov(\mathcal X,\mathcal Y),Cov(\mathcal Y,\mathcal X)$ 带入，至此， $\mathcal Z$ 的概率分布完整表示如下：
$\mathcal Z \sim \mathcal N\left([μA⋅μ+B]$

,

\right)

Z \sim N ([μ A \cdot μ + B], [Λ^{- 1}, Λ^{- 1} A^{T} A Λ^{- 1}, L^{- 1} + A Λ^{- 1} A^{T}])

此时，关于

\mathcal X,\mathcal Y

的联合概率分布已经求解，可以使用上一节的联合概率分布求解方式进行求解：
直接将结论抄过来啦~，有需要的去看一眼~，但是需要注意的是，由于上一节求解的是

\mathcal P(\mathcal Y \mid \mathcal X)

，本节求解的是

\mathcal P(\mathcal X \mid \mathcal Y)

,需要将所有的

a, b

下标调换过来。

P (X ∣ Y) \sim N (μ_{a . b} + Σ_{a b} Σ_{b b}^{- 1} X_{b}, Σ_{a a . b}) = N (μ_{a} + Σ_{a b} Σ_{b b}^{- 1} (X_{b} - μ_{b}), Σ_{a a} - Σ_{a b} Σ_{b b}^{- 1} Σ_{b a})

将上述对应的量代入：

\Sigma_{ba} \to

正定矩阵的性质:正定矩阵的转置等于本身。

{Xb→Yμa→E[X]=μμb→E[Y]=Aμ+BΣaa→Λ−1Σbb→L−1+AΛ−1ATΣab→Λ−1ATΣba→A(Λ−1)T=AΛ−1

最终有：

\mathcal P(\mathcal X \mid \mathcal Y) \sim \mathcal N(\Sigma \{\mathcal A^T \mathcal L(y-\mathcal B) + \mathcal A \mu\},\Sigma) \quad \Sigma = \Lambda + \mathcal A^T \mathcal L\mathcal A^{-1}

至此，高斯分布部分介绍完毕。下一节将介绍高斯网络(Gaussian Network)

相关阅读:
bitmap实践-留存计算
mysql5.7版本 - 函数sql函数编写（减少sql代码量）
买卖股票的最佳时机
4 种策略让 MySQL 和 Redis 数据保持一致
es6 基础知识详解变量字符串解构赋值函数对象从入门到精通
Django Admin后台管理：高效开发与实践
Python实现微博舆情分析的设计与实现
（一）LTspice简介
Qt添加自定义字体
Java--嵌套类

原文地址：https://blog.csdn.net/qq_34758157/article/details/127959196