图由顶点集(或节点集)
V
V
V和连接顶点对的边集(或链接集)
E
E
E组成。图中的顶点对应用于变量,边表示变量对之间的某种关系。由边连接的两个变量称为相邻变量。
我们会使用“双向”边来表示未观察到的共同原因(有时称为混杂因子)
有向图可以包含有向环(例如,
X
→
Y
,
Y
→
X
X \to Y,\ \ Y \to X
X→Y,Y→X),表示相互因果关系或反馈过程,但不包含自循环(例如,
X
→
X
X \to X
X→X)
如果有向图中的节点没有父节点,称其为根节点,若没有子节点,则称其为汇聚节点
每个节点最多有一个子节点的树称为链。
每对节点均有边相连的图称为完全图。
贝叶斯网络
图在概率与统计建模中的作用有三个方面:
提供便捷的方法在表示众多的假定
便于联合概率函数的简约表示
便于从观察中进行有效推断
无向图有时称为马尔可夫网络,主要用于表示对称的空间关系。
有向图,尤其是无环图,用于表示因果关系或时间关系,这种图称为贝叶斯网络。
贝叶斯网络强调3个方面:
输入信息的主观属性
依赖贝叶斯条件作为信息更新的基础
区分推理的因果模式和证据模式
假设我们有一个定义在n个离散变量上的分布P,我们可以将变量任意排序为
X
1
,
X
2
,
⋯
,
X
n
X_1,X_2,\cdots,X_n
X1,X2,⋯,Xn。根据概率演算的链式法则允许我们将
P
P
P分解为
n
n
n个条件分布的乘积:
P
(
x
1
,
⋯
,
x
n
)
=
∏
j
P
(
x
j
∣
x
1
,
⋯
,
x
j
−
1
)
P(x_1,\cdots,x_n) = \prod_{j}P(x_j|x_1,\cdots,x_{j-1})
P(x1,⋯,xn)=j∏P(xj∣x1,⋯,xj−1) 现在假设某些变量
X
j
X_j
Xj的条件概率不是对
X
j
X_j
Xj的所有前驱变量敏感,而仅对其中的小部分敏感。我们将这部分敏感的前驱变量记为
P
A
j
PA_j
PAj,那么可以将乘积写为:
P
(
x
j
∣
x
1
,
⋯
,
x
j
−
1
)
=
P
(
x
j
∣
p
a
j
)
P(x_j|x_1,\cdots,x_{j-1}) = P(x_j|pa_j)
P(xj∣x1,⋯,xj−1)=P(xj∣paj) 我们仅需要关注集合
P
A
j
PA_j
PAj的可能情况,而不需要将
X
j
X_j
Xj的所有前驱变量
X
1
,
⋯
,
X
j
−
1
X_1,\cdots,X_{j-1}
X1,⋯,Xj−1的可能情况作为条件来确定
X
j
X_j
Xj的概率。
集合
P
A
j
PA_j
PAj称为
X
j
X_j
Xj的马尔可夫父代变量集合。
概率分布
P
P
P的贝叶斯网络是有向无环图
G
G
G的一个必要条件是
P
P
P容许图
G
G
G所确定的乘积分解。
马尔可夫相容性:如果概率函数
P
P
P容许有向无环图G所确定的乘积分解,那么我们认为
G
G
G表示
P
P
P、
G
G
G与
P
P
P 相容,
P
P
P与
G
G
G马尔可夫相关。
在统计建模中,确定DAG和概率之间的相容性非常重要,主要是因为相容性是有向无环图
G
G
G解释
P
P
P表示的经验数据的充分必要条件。
d
\ d
d-分离准则
路径
p
p
p被节点集
Z
d
Z\ d
Zd-分离(或阻断),当且仅当:
p
p
p包含了一个链
i
→
m
→
j
i \to m \to j
i→m→j或一个分叉
i
←
m
→
j
i \gets m \to j
i←m→j,而中间节点
m
m
m在
Z
Z
Z中,或者
p
p
p包含一个反向分叉(或对撞)
i
→
m
←
j
i \to m \gets j
i→m←j,而中间节点
m
m
m以及
m
m
m的任何后代节点都不在
Z
Z
Z中。
集合
Z
Z
Z将
X
X
X与
Y
Y
Y
d
\ d
d-分离当且仅当
Z
Z
Z阻断了从
X
X
X中每个节点到
Y
Y
Y中每个节点的所有路径。
d
\ d
d-分离的概率含义:如果
X
X
X和
Y
Y
Y在有向无环图
G
G
G中被
Z
d
Z\ d
Zd-分离,那么在每一个与
G
G
G相容的分布中,以
Z
Z
Z为条件时,
X
X
X独立于
Y
Y
Y。反之,如果
X
X
X和
Y
Y
Y在有向无环图
G
G
G中未被
Z
d
Z\ d
Zd-分离,那么至少存在一个与
G
G
G相容的分布,以
Z
Z
Z为条件时,
X
X
X与
Y
Y
Y相关。