从Joint Neural Phase Retrieval and Compression for Energy- and Computation-Efficient Holography on the Edge论文开始,看到其开源代码时,注意到Hyperprior模型,不是特别理解,于是溯源到VARIATIONAL IMAGE COMPRESSION WITH A SCALE HYPERPRIOR文章中来,在看文章的途中遇到的各种问题,于是有了这篇文章,当然我并没有看到这篇文献,现在只是先把我看到的总结起来。
信息量(不确定度)、熵(平均信息量)、条件信息量
信息量与不确定度大小相同,事件发生后不确定度的减少量与事件发生提供的信息量相同,通过公式
−
log
P
(
x
)
-\text{log}P(x)
−logP(x)来表示,其中x为某个事件,随机事件/随机变量
X
X
X的熵即为信息量的期望值
H
(
X
)
=
−
∑
x
∈
{
x
1
,
x
2
,
⋯
}
P
(
x
)
⋅
log
P
(
x
)
H(X)=-\sum_{x \in \{x_1, x_2, \cdots\}}P(x)\cdot \text{log}P(x)
H(X)=−∑x∈{x1,x2,⋯}P(x)⋅logP(x).
条件信息量 I ( x ∣ y ) = − log P ( x ∣ y ) I(x|y)=-\text{log}{P(x|y)} I(x∣y)=−logP(x∣y),条件熵 H ( X ∣ y i ) = − ∑ x ∈ { x 1 , x 2 , ⋯ } P ( x y i ) log P ( x ∣ y 1 ) H(X|y_i)=-\sum_{x \in \{x_1, x_2, \cdots\}}P(xy_i)\text{log}{P(x|y_1)} H(X∣yi)=−∑x∈{x1,x2,⋯}P(xyi)logP(x∣y1)和 H ( X ∣ Y ) = − ∑ y ∈ { y 1 , y 2 , ⋯ } ∑ x ∈ { x 1 , x 2 , ⋯ } P ( x y ) log P ( x ∣ y ) H(X|Y)=-\sum_{y \in \{y_1, y_2, \cdots\}}\sum_{x \in \{x_1, x_2, \cdots\}}P(xy)\text{log}{P(x|y)} H(X∣Y)=−∑y∈{y1,y2,⋯}∑x∈{x1,x2,⋯}P(xy)logP(x∣y)
平均互信息量
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
I(X;Y)=H(X)-H(X|Y)
I(X;Y)=H(X)−H(X∣Y)
一图以蔽之:

KL散度(Kullback–Leible divergence)
KL散度英文全称为 Kullback–Leible divergence简称KLD。KL散度用于描述两个随机变量分布之间的差异,常用于信息论、机器学习和深度学习中。
假定真实分布为
q
q
q,我们设计的期望去逼近
q
q
q分布是
p
p
p,则有正向KL散度的公式为
K
L
(
q
∥
p
)
=
∑
q
log
q
p
KL(q\| p)=\sum {q}\text{log}{\frac{q}{p}}
KL(q∥p)=∑qlogpq,反向KL散度的表示为
K
L
(
p
∥
q
)
KL(p \| q)
KL(p∥q)。正向KL散度和反向KL散度并不相等,意味着KL散度并不具有对称性,在不同的情况下需要使用不同的公式。
二者的不同可以从公式出来来进行理解,特别是通过单峰分布来拟合多峰分布(实际分布往往是多峰的)的情况,并且这类似于交叉熵在
q
q
q 分布上求解
p
p
p分布的熵
E
q
(
p
)
=
∑
x
q
(
x
)
log
p
(
x
)
E_{q}(p)=\sum_{x} {q(x)\text{log}p(x)}
Eq(p)=∑xq(x)logp(x)。对于正向KL散度公式来说,当
q
q
q为0时,意味着真实分布在这里为0,则真实分布和拟合分布之间的差异不考虑,这样拟合出来的分布往往不局限于多峰分布中的某个峰,而是趋于寻找极大似然估计。举例如果拟合的是多峰中的某个峰,则正向KL散度仍然会很大。
对于反向KL散度公式来说,当
p
p
p很小时,KL散度相应权重很小,意味着不考虑拟合分布概率密度小的地方,这样拟合的分布会陷入某个单峰的拟合中。


详细内容可以参考知乎博客。
变分推断(variational inference)
在本文中,我们考虑一个编码器
g
a
g_a
ga将输入
X
X
X映射为
Y
Y
Y,这些数据存在一些特性,如:输入的
X
X
X真实分布不可知,因此 条件分布
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)不可知,假定可以使用
X
X
X的采样频率分布近似
X
X
X的真实分布,根据贝叶斯公式
P
(
Y
∣
X
)
=
P
(
X
∣
Y
)
⋅
P
(
Y
)
P
(
X
)
P(Y|X)=\frac{P(X|Y)\cdot P(Y)}{P(X)}
P(Y∣X)=P(X)P(X∣Y)⋅P(Y),需要进行多重积分因此条件分布仍然是"intractable"。
可以通过变分推断(variational inference)的形式来解决,设计一个存在参数
λ
\lambda
λ的分布
q
(
Y
;
λ
)
q(Y;\lambda )
q(Y;λ)来近似实际不可获得的条件分布
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)。而这个近似的直觉思路是通过反向KL散度来设计。但是KL散度中存在上述的intractable的问题,因此希望把KL散度的优化问题转化为其他的优化函数。
详细内容参考知乎回答。