机器学习笔记之EM算法(一)隐变量与EM算法公式的收敛性

机器学习笔记之EM算法——隐变量与EM算法公式的收敛性

引言

引言

从本节开始将介绍EM算法。本节将介绍隐变量以及EM算法公式的收敛性。

隐变量

什么是隐变量？从字面意义来看，就是看不见的变量。或者可以理解为 隐藏在数据内部，表示其隐含规律的变量。通过两个例子，对隐变量进行说明。

示例1

我们面前有若干个非透明的盒子，每个盒子中装有若干个涂有颜色的球，并且 任意一个球均只有一个颜色。此时，有两个人：

第一个人是实验员，负责执行实验；
另一个人是记录员，负责记录实验过程；

实验目的：推测每个非透明盒子中各颜色球数量的比例，如果 $N$ 个盒子，自然会得到 $N$ 个比例结果；

实验员将重复执行如下操作：

任意选择一个盒子，并将盒子中的球摇匀；
从选择的盒子中抽取一个球；
抽取结束后，将球原路放回；

记录员的动作只有一个：记录实验员的整个操作流程。
实际上，实验员每次执行重复操作时，记录员都将记录两个信息：

实验员选择的盒子编号 $\quad (k \in \{1,2,\cdots,N\})$ ；
实验员在编号 $k$ 盒子中选取的球的颜色。

随着实验员重复执行的次数越多，记录员记录结果越多，我们可以通过记录得到每个袋子球的颜色比例：
$P_i^{(k)} \approx \frac{N_i^{(k)}}{N^{(k)}}$
其中 $P_i^{(k)}$ 表示编号为 $k$ 的盒子中颜色为 $i$ 的球数量的比例； $N^{(k)}$ 表示整个记录结果中，实验员选择编号 $k$ 盒子的次数； $N_i^{(k)}$ 表示 实验员选择编号 $k$ 盒子条件下，抽取颜色为 $i$ 的球的数量。
基于中心极限定理，记录的结果越多，推测的结果就越准确。

如果在记录员和实验员之间加一个帘子，使得记录员无法观察实验员时从哪个盒子中抽取的球，只能观察实验员每次操作中抽取球的颜色。
至此，由于选择盒子的过程无法观测到，导致即便再多的记录，也很难直观推测各盒子中各颜色求数量比例。此时，选择盒子的信息就相当于一个隐变量。

示例2

已知 $\mathcal X = \{x^{(1)},x^{(2)},\cdots,x^{(N)}\}$ 是由概率模型 $P(\mathcal X\mid \theta)$ 产生的一组样本集合。并且任意一个样本点 $x^{(i)}(i=1,2,\cdots,N)$ 是一个2维向量。即：
$x^{(i)} = (x_1^{(i)},x_2^{(i)})\quad(i=1,2,\dots,N)$
该样本集合在2维样本空间中的分布如下所示：
请添加图片描述

从对上图观测的角度我们可能会发现：上面的样本像是分成了两堆。
但是这个结果仅凭单纯的观察样本集合，我们是很难观测出来的，样本分成两堆这个信息是通过将样本映射到样本空间中得到的隐藏在样本集合中的信息。

如果我们将上述图像 染个色：
请添加图片描述
我们可以直观发现：概率模型 $P(\mathcal X \mid \theta)$ 描述的是两个不同分布放在一起的效果。基于染色信息，可以对各颜色样本点的分布进行推测，从而推测整个概率模型。
我们也可以称这个染色信息(分类信息)为隐变量。

综合上述两个例子，隐变量存在的特性：

隐变量是样本集合中一种 无法直接观测的规律，但是对概率模型的状态、对输出结果存在影响的一种信息。

EM算法

包含隐变量的混合概率模型

基于上述对隐变量的介绍，我们可以将概率模型分为两类：

简单模型：对于一个概率模型 $P(\mathcal X \mid \theta)$ ，它的模型参数 $\theta$ 可以 仅通过 $P(\mathcal X \mid \theta)$ 生成的样本集合 $\mathcal X$ 进行求解。
关于 $\theta$ 解析解的求解方式是极大似然估计(Maximum Likelihood Estimate，MLE)：
为了简化运算，通常添加一个log,对log likelihood求解最大值:
$\hat {\theta} = \mathop{\arg\max}\limits_{\theta} \log P(\mathcal X \mid \theta)$
复杂模型：基于上述两个示例，存在一些信息 仅通过直接观测样本集合 $\mathcal X$ 直接求解模型参数 $\theta$ 是非常困难的。
因而，将无法直接观测到的隐含信息具象化为一个变量：隐变量。用 $\mathcal Z$ 表示。此时，概率模型将成为一个关于 $\mathcal X$ 和 $\mathcal Z$ 的混合模型：
$P(\mathcal X,\mathcal Z \mid \theta)$
通常称：
$\mathcal X$ 为观测变量：通过样本集合直接观测到的信息；
$\mathcal Z$ 称为隐变量：样本集合中无法直接观测到的隐藏信息。
将 $\mathcal X$ 和 $\mathcal Z$ 合并在一起，称为 完整数据。

EM算法的表达形式

EM算法就是针对包含隐变量的混合概率模型 $P(\mathcal X,\mathcal Z \mid \theta)$ 求解最优模型参数 $\theta$ 的一种方法。其算法公式表示如下：
$\theta^{(t+1)} = \mathop{\arg\max}\limits_{\theta} \left\{\int_{\mathcal Z} \log P(\mathcal X,\mathcal Z \mid \theta)\cdot P(\mathcal Z \mid \mathcal X,\theta^{(t)})d\mathcal Z\right\}$
观察该公式：

首先，它并没有直接求解出模型参数 $\theta$ 的最优解，而是一个关于 $\theta^{(t+1)}$ 与 $\theta^{(t)}$ 之间的迭代过程；
$P(\mathcal Z \mid \mathcal X,\theta^{(t)})$ 表示：给定 $t$ 时刻(或者说上一时刻)的模型参数 $\theta^{(t)}$ 和观测变量 $\mathcal X$ 条件下，隐变量 $\mathcal Z$ 的后验概率；
$\log P(\mathcal X,\mathcal Z \mid \theta)$ 是基于 完整数据 $\mathcal X,\mathcal Z$ 的 $\log$ 似然结果。

因此，可以将上述公式括号中的部分看作：基于后验概率 $P(\mathcal Z \mid \mathcal X,\theta^{(t)})$ 分布的关于 $\log P(\mathcal X,\mathcal Z \mid \theta)$ 的期望结果：
$\int_{\mathcal Z} \log P(\mathcal X,\mathcal Z \mid \theta)\cdot P(\mathcal Z \mid \mathcal X,\theta^{(t)})d\mathcal Z = \mathbb E_{\mathcal Z \mid \mathcal X,\theta^{(t)}} \left[\log P(\mathcal X,\mathcal Z \mid \theta)\right]$
并称上述求解期望的过程为EM算法中的E部(Expectation-step)；
将当前时刻最优模型参数 $\theta^{(t+1)}$ 的求解过程称为M部；
$\theta^{(t+1)} = \mathop{\arg\max}\limits_{\theta} \left\{\mathbb E_{\mathcal Z \mid \mathcal X,\theta^{(t)}} \left[\log P(\mathcal X,\mathcal Z \mid \theta)\right]\right\}$

EM算法的收敛性

EM算法的标准计算框架是由E步和M步交替组成，而算法的收敛性可以确保每次迭代得到的模型参数 $\theta^{(t+1)}$ 优于之前迭代得到的模型参数 $\theta^{(t)},\theta^{(t-1)},\cdots$ ，从而最终至少逼近局部最优值。下面将证明EM算法的收敛性。

EM算法的收敛性证明的条件与目标

描述EM算法收敛性的核心是：通过EM算法迭代得到的 $\theta^{(t+1)}$ 对于概率模型的表示： $P(\mathcal X \mid \theta^{(t+1)})$ 优于 $\theta^{(t)}$ 对于概率模型的表示： $P(\mathcal X \mid \theta^{(t)})$ 。从极大似然估计的角度表示：
注意：这里使用的是’概率模型‘ $P(\mathcal X \mid \theta)$ 而不是'概率混合模型' $P(\mathcal X,\mathcal Z \mid \theta)$ ,因为’隐变量‘这个概念是人为定义的，在真实情况中，数据集合内只有观测变量 $\mathcal X$ ；
$\log P(\mathcal X \mid \theta^{(t)}) \leq \log P(\mathcal X \mid \theta^{(t+1)})$
综上，我们确定了 算法收敛性证明的条件：EM算法自身。
$\theta^{(t+1)} = \mathop{\arg\max}\limits_{\theta} \left\{\int_{\mathcal Z} \log P(\mathcal X,\mathcal Z \mid \theta)\cdot P(\mathcal Z \mid \mathcal X,\theta^{(t)})d\mathcal Z\right\}$
并确定了描述算法收敛性证明的目标：
$\log P(\mathcal X \mid \theta^{(t)}) \leq \log P(\mathcal X \mid \theta^{(t+1)})$

EM算法的收敛性证明过程

具体证明如下：

将隐变量 $\mathcal Z$ 引入 $\log P(\mathcal X \mid \theta)$ 中：
联合概率与条件概率~
$\log P(\mathcal X \mid \theta) = \log \frac{P(\mathcal X,\mathcal Z \mid \theta)}{P(\mathcal Z \mid \mathcal X,\theta)} = \log P(\mathcal X,\mathcal Z \mid \theta) - \log P(\mathcal Z \mid \mathcal X,\theta)$
针对上述公式等式两端求积分。对分布 $P(\mathcal Z \mid \mathcal X,\theta^{(t)})$ 求解积分：
- 对 $\log P(\mathcal X \mid \theta)$ 求解积分：
  $\int_{\mathcal Z}P(\mathcal Z \mid \mathcal X,\theta^{(t)}) \cdot \log P(\mathcal X \mid \theta) d\mathcal Z$
  由于 $\log P(\mathcal X \mid \theta)$ 中不含 $\mathcal Z$ 项，因此在求积分过程中将其视为常数，并将其提到积分号外面：
  $\log P(\mathcal X \mid \theta)\int_{\mathcal Z}P(\mathcal Z \mid \mathcal X,\theta^{(t)})d\mathcal Z$
  根据条件概率密度积分的定义(动态规划强化学习任务中介绍过)，有：
  $\int_{\mathcal Z}P(\mathcal Z \mid \mathcal X,\theta^{(t)})d\mathcal Z = 1$
  最终对 $\log P(\mathcal X \mid \theta)$ 求解积分结果没有变化，依然是 $\log P(\mathcal X \mid \theta)$ 自身：
  $\log P(\mathcal X \mid \theta)\int_{\mathcal Z}P(\mathcal Z \mid \mathcal X,\theta^{(t)})d\mathcal Z = \log P(\mathcal X \mid \theta) \cdot 1 = \log P(\mathcal X \mid \theta)$
- $\log P(\mathcal X,\mathcal Z \mid \theta) - \log P(\mathcal Z \mid \mathcal X,\theta)$ 对分布 $P(\mathcal Z \mid \mathcal X,\theta^{(t)})$ 求解积分：
  $\int_{\mathcal Z}P(\mathcal Z \mid \mathcal X,\theta^{(t)}) \left[\log P(\mathcal X,\mathcal Z \mid \theta) - \log P(\mathcal Z \mid \mathcal X,\theta)\right]d\mathcal Z$
  将上式展开：
  $\int_{\mathcal Z}P(\mathcal Z \mid \mathcal X,\theta^{(t)})\log P(\mathcal X,\mathcal Z \mid \theta) d\mathcal Z - \int_{\mathcal Z}P(\mathcal Z \mid \mathcal X,\theta^{(t)}) \log P(\mathcal Z \mid \mathcal X,\theta)d\mathcal Z$
  观察上述结果是两项相减的形式。对上述两项进行如下定义：
  将上述两项均定义为关于 $\theta,\theta^{(t)}$ 的函数;
  $\mathcal Q(\theta,\theta^{(t)}) = \int_{\mathcal Z}P(\mathcal Z \mid \mathcal X,\theta^{(t)})\log P(\mathcal X,\mathcal Z \mid \theta) d\mathcal Z \\ \mathcal H(\theta,\theta^{(t)}) = \int_{\mathcal Z}P(\mathcal Z \mid \mathcal X,\theta^{(t)}) \log P(\mathcal Z \mid \mathcal X,\theta)d\mathcal Z$
  原式则有：
  $\log P(\mathcal X \mid \theta) = \mathcal Q(\theta,\theta^{(t)}) - \mathcal H(\theta,\theta^{(t)})$
  首先观察 $\mathcal Q(\theta,\theta^{(t)})$ ，该式即EM算法的E部。根据EM算法(收敛性证明条件)，有：
  根据EM算法定义得到
  $\mathcal Q(\theta^{(t+1)},\theta^{(t)}) \geq \mathcal Q(\theta,\theta^{(t)}) \quad \forall \theta$
  基于上式，自然有：
  $\theta^{(t)} \in \forall \theta \\ \mathcal Q(\theta^{(t+1)},\theta^{(t)}) \geq \mathcal Q(\theta^{(t)},\theta^{(t)}) \to \mathcal Q(\theta^{(t+1)},\theta^{(t)}) - \mathcal Q(\theta^{(t)},\theta^{(t)}) \geq 0$
  继续观察 $\mathcal H(\theta,\theta^{(t)})$ ，和 $Q(\theta,\theta^{(t)})$ 处理方式类似，观察 $\mathcal H(\theta^{(t+1)},\theta^{(t)})$ 和 $\mathcal H(\theta^{(t)},\theta^{(t)})$ 之间的大小关系。即：
  $\mathcal H(\theta^{(t+1)},\theta^{(t)}) - \mathcal H(\theta^{(t)},\theta^{(t)}) \overset{\text{?}}{=} 0$
  将上述公式展开：
  $\int_{\mathcal Z}P(\mathcal Z \mid \mathcal X,\theta^{(t)}) \log P(\mathcal Z \mid \mathcal X,\theta^{(t+1)})d\mathcal Z - \int_{\mathcal Z}P(\mathcal Z \mid \mathcal X,\theta^{(t)}) \log P(\mathcal Z \mid \mathcal X,\theta^{(t)})d\mathcal Z$
  提出公因式 $P(\mathcal Z \mid \mathcal X,\theta^{(t)})$ ：
  $\int_{\mathcal Z}P(\mathcal Z \mid \mathcal X,\theta^{(t)})\left[\log P(\mathcal Z \mid \mathcal X,\theta^{(t+1)}) - \log P(\mathcal Z \mid \mathcal X,\theta^{(t)})\right] d\mathcal Z \\ = \int_{\mathcal Z}P(\mathcal Z \mid \mathcal X,\theta^{(t)}) \left[\log \frac{P(\mathcal Z \mid \mathcal X,\theta^{(t+1)})}{P(\mathcal Z \mid \mathcal X,\theta^{(t)})}\right] d\mathcal Z$
  该格式是 $\mathcal K\mathcal L$ 散度的格式：
  KL散度是描述概率分布差距的一种方式，其结果 $\geq0$ 恒成立，先挖一个坑把~
  $\int_{\mathcal Z}P(\mathcal Z \mid \mathcal X,\theta^{(t)}) \left[\log \frac{P(\mathcal Z \mid \mathcal X,\theta^{(t+1)})}{P(\mathcal Z \mid \mathcal X,\theta^{(t)})}\right] d\mathcal Z = - \mathcal K\mathcal L(P(\mathcal Z \mid \mathcal X,\theta^{(t)}) || P(\mathcal Z \mid \mathcal X,\theta^{(t+1)})) \leq 0$
  因此，则有：
  $\mathcal H(\theta^{(t+1)},\theta^{(t)}) - \mathcal H(\theta^{(t)},\theta^{(t)}) \leq 0$
  结合 $\mathcal Q(\theta^{(t+1)},\theta^{(t)}) - \mathcal Q(\theta^{(t)},\theta^{(t)}) \geq 0$ ，从而有：
  $\mathcal Q(\theta^{(t+1)},\theta^{(t)}) - \mathcal H(\theta^{(t+1)},\theta^{(t)}) \geq \mathcal Q(\theta^{(t)},\theta^{(t)}) - \mathcal H(\theta^{(t)},\theta^{(t)})$
  最终有：
  $\log P(\mathcal X \mid \theta^{(t+1)}) \geq \log P(\mathcal X \mid \theta^{(t)})$

证毕。

总结

隐变量 $\mathcal Z$ 是人为设定的，朴素目的是为了更简单地求解概率模型 $P(\mathcal X \mid \theta)$ ；
EM算法的收敛性表达了通过EM算法迭代得到的模型参数确实能够更好地表示概率模型，但该模型参数只是局部最优。

相关阅读:
mysql分区表的增删改查操作
Std::Decay 简介
备战数学建模30-回归分析2
camunda7流程跳转和流程退回的实现方法
nodejs+vue+elementui在线公益-帮助流浪动物网站python java
SpringBoot进阶教程(七十三)整合elasticsearch
free pascal 调用 C#程序读 Freeplane.mm文件，生成测试用例.csv文件
Elasticsearch：什么是检索增强生成 - RAG？
自学Python需要掌握哪些知识点？怎么学？
Java题目集-Chapter 10 Object-Oriented Thinking

原文地址：https://blog.csdn.net/qq_34758157/article/details/126717628