机器学习之变分推断(三)基于平均场假设变分推断与广义EM

机器学习笔记之变分推断——基于平均场假设变分推断与广义EM

引言

引言

上一节介绍了基于平均场假设 的变分推断推导过程。本节将介绍平均场假设变分推断与广义EM之间的联系。

回顾：基于平均场假设的变分推断

首先，平均场理论(Mean Theory)是一个物理学的概念，将隐变量在概率图中的状态变量 划分成 $\mathcal M$ 个组，将整个关于 隐变量的概率分布看作 $\mathcal M$ 个独立的子概率分布。数学符号表示如下：

Q (Z) = i = 1 \prod M Q_{i} (Z^{(i)}) = Q_{1} (Z^{(1)}) \cdot Q_{2} (Z^{(2)}) \dots Q_{M} (Z^{(M)})

由于平均场假设，

\mathcal Q(\mathcal Z)

内部各子概率分布 $\mathcal Q_{i}(\mathcal Z^{(i)})$ 之间相互独立，因此，在求解 任一子概率分布 $\mathcal Q_j(\mathcal Z^{(j)})(j \in \{1,2,\cdots,\mathcal M\})$ 过程中，可以通过固定剩余的 $\mathcal M - 1$ 项进行求解。令：
注意：由于只将

\mathcal Z^{(j)}

看作变量，因此该期望基于的分布

\prod_{i \neq j}^{\mathcal M} \mathcal Q_i(\mathcal Z^{(i)})

是已知分布。同理，隐变量

\mathcal Z = (\mathcal Z^{(1)},\mathcal Z^{(2)},\cdots,\mathcal Z^{(\mathcal M)})

中只有

\mathcal Z^{(j)}

是变量，其余均是常数。因此，将该期望视作关于

\mathcal X,\mathcal Z^{(j)}

的函数。

\mathbb E_{\prod_{i \neq j}^{\mathcal M} \mathcal Q_i(\mathcal Z^{(i)})} \left[ \log P(\mathcal X,\mathcal Z)\right] = \log \hat \phi (\mathcal X ,\mathcal Z^{(j)})

从而求解最优 $\hat {\mathcal Q_j}(\mathcal Z^{(j)})$ 的值：
$^Qj(Z(j))=argmaxQj(Z(j))L[Q(Z)]=argmaxQj(Z(j)){−KL[ˆϕ(X,Z(j))||Qj(Z(j))]}$

Qj​^​(Z(j))​=Qj​(Z(j))argmax​L[Q(Z)]=Qj​(Z(j))argmax​{−KL[ϕ^​(X,Z(j))∣∣Qj​(Z(j))]}​

同理，可以尝试求解其他的子概率分布：

\hat {\mathcal Q_1}(\mathcal Z^{(1)}),\hat {\mathcal Q_1}(\mathcal Z^{(1)}),\cdots, \hat {\mathcal Q_{\mathcal M}}(\mathcal Z^{(\mathcal M)})

最终，求得最优解

\hat {\mathcal Q}(\mathcal Z)

：

\hat {\mathcal Q}(\mathcal Z) = \prod_{j=1}^{\mathcal M}\hat {\mathcal Q}_j(\mathcal Z^{(j)})

深入认识平均场假设

观察上式，上述的推导过程看似无懈可击，但实际上 存在漏洞。
并不是说 $\hat {\mathcal Q}(\mathcal Z) = \prod_{j=1}^{\mathcal M}\hat {\mathcal Q}_j(\mathcal Z^{(j)})$ 是错误的，因为该式子是 平均场假设给我们提供的条件。具体漏洞在什么地方？

如果我们将 $\mathcal Q(\mathcal Z)$ 看成关于 $\mathcal Q_1(\mathcal Z^{(1)}),\mathcal Q_2(\mathcal Z^{(2)}),\cdots,\mathcal Q_{\mathcal M}(\mathcal Z^{(\mathcal M)})$ 的函数。即令：
将上式展开即可~

Q (Z) = Q_{1} (Z^{(1)}) \cdot Q_{2} (Z^{(2)}) \dots Q_{M} (Z^{(M)}) = J (Q_{1}, Q_{2}, \dots, Q_{M})

每一次都固定 $\mathcal M - 1$ 的变量，只为求出剩余变量的最优结果。那么如果初始隐变量是随机的，即如果每次求解过程中都对随机结果进行固定并求解，那么我们总是得不到一个最优结果。
因此，如何在各自概率分布分别固定的过程中，使 $\hat {\mathcal Q}(\mathcal Z)$ 越来越好，最终达到最优？
依然是坐标上升法(Coordinate Ascent)。

假设当前求解 $\mathcal Q_1(\mathcal Z^{(1)})$ ，同时固定其余所有分布，我们会得到如下结果：
$\hat {\mathcal Q_1}(\mathcal Z^{(1)}) = \mathop{\arg\max}\limits_{\mathcal Q_1(\mathcal Z^{(1)})} \left\{- \mathcal K\mathcal L \left[ \hat \phi(\mathcal X,\mathcal Z^{(1)}) || \mathcal Q_1(\mathcal Z^{(1)})\right] \right\}$
此时的 $\mathcal Q(\mathcal Z)$ 表示如下：
将第一次迭代产生的最优解 $\hat {\mathcal Q_1}(\mathcal Z^{(1)})$ 带进 $\mathcal Q(\mathcal Z)$ 中。
$\mathcal Q(\mathcal Z) = \mathcal J(\hat {\mathcal Q_1},\mathcal Q_2,\cdots,\mathcal Q_{\mathcal M})$
在第一步的基础上，求解 $\hat {\mathcal Q}_2(\mathcal Z^{(2)})$ ：
$\hat {\mathcal Q_2}(\mathcal Z^{(2)}) = \mathop{\arg\max}\limits_{\mathcal Q_2(\mathcal Z^{(2)})} \left\{- \mathcal K\mathcal L \left[ \hat \phi(\mathcal X,\mathcal Z^{(2)}) || \mathcal Q_2(\mathcal Z^{(2)})\right] \right\}$
此时的 $\mathcal Q(\mathcal Z)$ 表示如下：
同上~
$\mathcal Q(\mathcal Z) = \mathcal J(\hat {\mathcal Q_1},\hat {\mathcal Q_2},\cdots,\mathcal Q_{\mathcal M})$
以此类推，直到固定最后一个子概率分布 $\mathcal Q_{\mathcal M}(\mathcal Z^{(\mathcal M)})$ ，最终得到：
$\mathcal Q(\mathcal Z) = \mathcal J(\hat {\mathcal Q_1},\hat {\mathcal Q_2},\cdots,\hat {\mathcal Q}_{\mathcal M})$
此时，我们已经将 所有的子概率分布 全部求解一遍，并不是说此时的 $\mathcal Q(\mathcal Z)$ 就是最优分布，而是仅完整地执行了第一次迭代。
后续将继续从第一个 $\hat {\mathcal Q_1}(\mathcal Z^{(1)})$ 再次进行求解。这种方式就可以逐渐得到最优的 $\mathcal Q(\mathcal Z)$ 。

经典变分推断与广义EM

基于平均场假设的变分推断与广义EM存在很多相似之处：

它们的求解方式都是基于 $\mathcal K\mathcal L$ 散度的性质，将求解过程转换为如下形式：
$\mathop{\arg\max} ELBO$
并且它们均转化为坐标上升法来解决最优解问题：
- 广义EM：
  $\\ \mathcal L[\mathcal Q(\mathcal Z),\theta] = \int_{\mathcal Z} \mathcal Q(\mathcal Z) \log \frac{P(\mathcal X,\mathcal Z \mid \theta^{(t)})}{\mathcal Q(\mathcal Z)} d\mathcal Z$
- 基于平均场假设的变分推断：
  $^Qj(Z(j))=argmaxQj(Z(j))L[Q(Z)]=argmaxQj(Z(j)){−KL[ˆϕ(X,Z(j))||Qj(Z(j))]} \\ \mathcal L[\mathcal Q(\mathcal Z)] = \int_{\mathcal Z} \mathcal Q(\mathcal Z) \cdot \log \left[\frac{P(\mathcal X,\mathcal Z)}{\mathcal Q(\mathcal Z)}\right]d\mathcal Z \\ \mathcal Q(\mathcal Z) = \mathcal J(\mathcal Q_1,\cdots,\hat {\mathcal Q}_j,\cdots,\mathcal Q_{\mathcal M})$

它们之间的核心区别更在于对于问题的理解角度不同：

广义EM算法的核心依然是 频率学派角度的求解逻辑——求解概率模型 $P(\mathcal X \mid \theta)$ 中的最优参数 $\hat \theta$ 。它的底层逻辑依然是 极大似然估计(Maximum Likelihood Estimate,MLE)；
相比于广义EM算法，基于平均场假设的变分推断的核心是 贝叶斯学派角度的求解逻辑：针对 $P(\mathcal X)$ 积分难的问题：
$P (X) = \int_{Z} P (X, Z) d Z = \int_{Z} P (X ∣ Z) \cdot P (Z) d Z$
通过对 $P(\theta \mid \mathcal X)$ 采用近似手段，将关于参数的后验求解出来。换句话说，对于参数结果 $\theta$ 在贝叶斯学派角度中并不是不存在，而是贝叶斯学派角度并不关心 $\theta$ 的具体值，而是关心 $\theta$ 的后验分布。
因此，在整个变分推断的推导过程中，我们总是有意地弱化模型参数 $\theta$ 的作用，而更加关注后验概率本身。

相关参考：
机器学习-变分推断3（再回首）

相关阅读:
回顾.NET系列：Framework、Net Core、Net 过往
Python 正则表达式：强大的文本处理工具
Java8特性，Stream流的使用,收集成为map集合
运算符、流程控制
漏洞复现-phpmyadmin_SQL注入（CVE-2020-5504）
java计算机毕业设计酒店后厨供应商订单合并系统源码+数据库+lw文档+系统
代码随想录1.5——数组：35搜索插入位置、34在排序数组中查找元素的第一个和最后一个位置、26.删除排序数组中的重复项、283移动零
RabbitMQ支持的消息模型
现在学编程还有出路吗？程序员的出路在哪里？
JVM内存模型解析

原文地址：https://blog.csdn.net/qq_34758157/article/details/126915662