图像生成：GAN网络(数学原理）

GAN网络经常会见到或用到，但感觉对其理解不够深入，写此博客记录一下，方便今后查阅。只看笔记估计很难看懂，推荐两个视频：
晟腾CANN训练营
 GAN论文精读

1. 首先是GAN的基本原理

在这里插入图片描述 #pic_center =x250)
GAN的整个训练对抗过程可以由下式表示出来：

$\min _G \max _D V(D, G)=\mathbb{E}_{\boldsymbol{x} \sim p_{\text {data }}(\boldsymbol{x})}[\log D(\boldsymbol{x})]+\mathbb{E}_{\boldsymbol{z} \sim p_{\boldsymbol{z}}(\boldsymbol{z})}[\log (1-D(G(\boldsymbol{z})))]$

其中G（generator）是想让整个式子的值V尽可能小，而D（discriminator）想让V尽可能大。

对于右边第一项：
$\mathbb{E}_{\boldsymbol{x} \sim p_{\text {data }}(\boldsymbol{x})}[\log D(\boldsymbol{x})]$
x是data中的数据，D为了使该项更大，对真实数据x的判别为真的概率D(x)就要越大。
对于右边第二项：
$\mathbb{E}_{\boldsymbol{z} \sim p_{\boldsymbol{z}}(\boldsymbol{z})}[\log (1-D(G(\boldsymbol{z})))]$
z是随机噪声，D为了使该项更大，对假数据G(z)的判别为真的概率D(G(z))就要越小。
G为了使该项越小，其生成的假数据G(z)就要越像真的，才能骗到D使得D(G(z))越大，从而使得第二项整个越小。

2. GAN的训练过程

2.1 训练流程

在这里插入图片描述
简单来说其训练过程如下：

训练判别器D，训练k步（需要调节的超参，即D可能需要更多训练）。采样噪声z和图片x，根据前述的公式求梯度来更新判别器D。
训练生成器G，只训练一步且只需采样噪声z，根据前述公式求梯度更新生成器G。

2.2 实际训练时使用更好优化的损失函数

在这里插入图片描述
观察G和D都有的损失项：
$J^{(G)}=\frac{1}{2} \mathbb{E}_{\boldsymbol{z}} \log (1-D(G(\boldsymbol{z})))$
图中Minimax（零和博弈）线是该损失项关于D(G(z))的曲线，在网络训练初期，G所生成的图像很好判断，D会给他很低的置信度，这时梯度是很小的，网络的学习很慢，只有当后期时D较难判断时，更新梯度才会较大。

但我们肯定希望是G生成较差时（训练初期）会有较大梯度进行更新才对。
所以实际使用中，我们选择非饱和启发式博弈（Non-saturating heuristic）：
$J^{(G)}=-\frac{1}{2} \mathbb{E}_{\boldsymbol{z}} \log D(G(\boldsymbol{z}))$
观察它的梯度，是更合适的：初期训练时梯度较大，后期较小。

4. GAN的问题

不好训练：G和D交替训练，其中一个不能训练太好，即对抗平衡不能被打破。
模式坍缩：只产生一种甚至一张迷惑性很高的图，但即可骗过辨别器D。

5. 从数学方面看生成器G的学习

$P_{\text {data }}(\mathrm{x})$ :真实图片分布，
$P_G(x, \theta): G$ 生成的图片分布， $\theta$ 是生成器G的参数，
在真实分布中取一些数据 $\left\{x^1, x^2, \ldots, x^m\right\}$ ，
生成模型的最大似然估计： $L=\prod_{i=1}^m P_G\left(x^i ; \theta\right)$

\begin{aligned} θ^{*} & = \arg max_{θ} \prod_{i = 1} P_{G} (x^{i}; θ) \\ = \arg max_{θ} \log \prod_{i = 1}^{m} P_{G} (x^{i}; θ) \\ = \arg max_{θ} \sum_{i = 1}^{m} \log P_{G} (x^{i}; θ) \\ \approx \arg max_{θ} E_{z \sim P_{data}} [\log P_{G} (x; θ)] \\ = \arg max_{θ} \int_{z} P_{data} (x) \log P_{G} (x; θ) d x - \int_{x} P_{data} (x) \log P_{data} (x) d x \\ = \arg max_{θ} \int_{x} P_{data} (x) (\log P_{G} (x; θ) - \log P_{data} (x)) d x \\ = \arg min_{θ} \int_{x} P_{data} (x) \log \frac{P_{data} (x)}{P_{G} (x; θ)} d x \\ = \arg min_{θ} K L (P_{data} (x) ‖ P_{G} (x; θ)) \end{aligned}

θ^{*} = ar g θ max i = 1 \prod P_{G} (x^{i}; θ) = ar g θ max lo g i = 1 \prod m P_{G} (x^{i}; θ) = ar g θ max i = 1 \sum m lo g P_{G} (x^{i}; θ) \approx ar g θ max E_{z \sim P_{data}} [lo g P_{G} (x; θ)] = ar g θ max \int_{z} P_{data} (x) lo g P_{G} (x; θ) d x - \int_{x} P_{data} (x) lo g P_{data} (x) d x = ar g θ max \int_{x} P_{data} (x) (lo g P_{G} (x; θ) - lo g P_{data} (x)) d x = ar g θ min \int_{x} P_{data} (x) lo g \frac{P _{data} ( x )}{P _{G} ( x ; θ )} d x = ar g θ min K L (P_{data} (x) ∥ P_{G} (x; θ))

~~中间这个 $E_{z \sim P_{\text {data }}}\left[\log P_G(x ; \theta)\right]$ 的展开没看懂。。。先记下来吧~~
期望的定义： $E_{x \sim p}[f(x)]=\int_x[P(x) f(x)] d x$

最后可推得：求 $\theta^*$ 就是求使得 $P_{\text {data }}(x)$ 与 $P_G(x ; \theta)$ 的KL散度最小（两者相等时）时 $\theta$ 的取值。

题外话：KL散度
考虑某个未知的分布 p(x)，假定用一个近似的分布q(x)对它进行建模。如果我们使用q(x)来建立一个编码体系，用来把×的值传给接收者，那么由于我们使用了q(x)而不是真实分布p(x)，平均编码长度比用真实分布px)进行编码增加的信息量(单位是nat )为:
$\begin{aligned} K L (p ‖ q) & = - \int p (x) \ln q (x) d x - (- \int p (x) \ln p (x) d x) \\ = - \int p (x) \ln [\frac{q (x)}{p (x)}] d x \end{aligned}$
p，q相等时KL散度为0。注意，这不是一个对称量,即 $\| q) \neq K L(q \| p)$

6. 训练：

6.1 先固定G，训练D

基于GAN的对抗过程：
$\min _G \max _D V(D, G)=\mathbb{E}_{\boldsymbol{x} \sim p_{\text {data}}(\boldsymbol{x})}[\log D(\boldsymbol{x})]+\mathbb{E}_{\boldsymbol{x} \sim p_{\boldsymbol{x}}(\boldsymbol{z})}[\log (1-D(G(\boldsymbol{z})))]$
在这里插入图片描述

那么固定G，且由上图的定律，那么V就可以由下式的结果表达

\begin{aligned} V & = E_{x \sim P_{data}} [\log D (x)] + E_{x \sim P_{G}} [\log (1 - D (x))] \\ = \int_{x} P_{data} (x) \log D (x) d x + \int_{x} P_{G} (x) \log (1 - D (x)) d x \\ = \int_{x} [P_{data} (x) \log D (x) + P_{G} (x) \log (1 - D (x))] d x \end{aligned}

V = E_{x \sim P_{data}} [lo g D (x)] + E_{x \sim P_{G}} [lo g (1 - D (x))] = \int_{x} P_{data} (x) lo g D (x) d x + \int_{x} P_{G} (x) lo g (1 - D (x)) d x = \int_{x} [P_{data} (x) lo g D (x) + P_{G} (x) lo g (1 - D (x))] d x

接下来解

D^*(x)

:

将解得的 $D^*(x)$ 带入原式中，得到下式:
在这里插入图片描述

最后V推导成了Jensen-Shannon散度与一个常数的和。
其中Jensen-Shannon散度如下式定义，是一个对称量。
在这里插入图片描述
所以可以这么说：
在优化判别器D时，其实是在学习如何度量JS散度（度量得更准）。
在优化生成器G时，其实是在最小化JS散度。

6.2 GAN为啥不好训练

~~有些理论目前看不懂，先记下来吧~~
在这里插入图片描述
上面这个结论大概的意思就是JS散度容易为0，有点类似于坏死不起作用的情况。

前面有提到具体使用时一般使用非饱和启发式博弈替代零和博弈：
在这里插入图片描述
最小化KL散度和最大化JS散度是相反的两个任务。所以不好训练。

模式坍缩的原因：

对KL散度分析，由于KL散度不对称：~~（此处也不是很理解）~~
左图：因为KL散度的性质，G生成的分布需要兼顾data的两个峰，其KL散度才小
右图：因为Peverse KL散度的性质，G生成的分布只要能跟住data的一个峰其KL散度就很小，前述的 $\mathbb{E}_{x \sim P_g}\left[-\log D^*(x)\right]$ 是包含的，所以容易发生模式坍缩。