设有一对服从多元正态分布的变量 ( x , y ) (\boldsymbol{x}, \boldsymbol{y}) (x,y),可以写出他们的联合概率密度函数:
p
(
x
,
y
)
=
N
(
[
μ
x
μ
y
]
,
[
Σ
x
x
Σ
x
y
Σ
y
x
Σ
y
y
]
)
p(\boldsymbol{x}, \boldsymbol{y})=\mathcal{N}\left(\left[
其中, Σ y x = Σ x y T \boldsymbol{\Sigma}_{y x}=\boldsymbol{\Sigma}_{x y}^{\mathrm{T}} Σyx=ΣxyT。
由舒尔补有:
[
Σ
x
x
Σ
x
y
Σ
y
x
Σ
y
y
]
=
[
1
Σ
x
y
Σ
y
y
−
1
0
1
]
[
Σ
x
x
−
Σ
x
y
Σ
y
y
−
1
Σ
y
x
0
0
Σ
y
y
]
[
1
0
Σ
y
y
−
1
Σ
y
x
1
]
\left[
对两边同时求逆有:
[
Σ
x
x
Σ
x
y
Σ
y
x
Σ
y
y
]
−
1
=
[
1
0
−
Σ
y
y
−
1
Σ
y
x
1
]
[
(
Σ
x
x
−
Σ
x
y
Σ
y
y
−
1
Σ
y
x
)
−
1
0
0
Σ
y
y
−
1
]
[
1
−
Σ
x
y
Σ
y
y
−
1
0
1
]
{\left[
因此,联合概率密度函数 p ( x , y ) p(\boldsymbol{x}, \boldsymbol{y}) p(x,y) 指数部分的二次项为:
(
[
x
y
]
−
[
μ
x
μ
y
]
)
T
[
Σ
x
x
Σ
x
y
Σ
y
x
Σ
y
y
]
−
1
(
[
x
y
]
−
[
μ
x
μ
y
]
)
=
(
[
x
y
]
−
[
μ
x
μ
y
]
)
T
[
1
0
−
Σ
y
y
−
1
Σ
y
x
1
]
[
(
Σ
x
x
−
Σ
x
y
Σ
y
y
−
1
Σ
y
x
)
−
1
0
0
Σ
y
y
−
1
]
×
[
1
−
Σ
x
y
Σ
y
y
−
1
0
1
]
(
[
x
y
]
−
[
μ
x
μ
y
]
)
=
(
x
−
μ
x
−
Σ
x
y
Σ
y
y
−
1
(
y
−
μ
y
)
)
T
(
Σ
x
x
−
Σ
x
y
Σ
y
y
−
1
Σ
y
x
)
−
1
×
(
x
−
μ
x
−
Σ
x
y
Σ
y
y
−
1
(
y
−
μ
y
)
)
+
(
y
−
μ
y
)
T
Σ
y
y
−
1
(
y
−
μ
y
)
很明显可以看出,这是两个二次项的和。
又由贝叶斯公式有:
p ( x , y ) = p ( x ∣ y ) p ( y ) p(\boldsymbol{x}, \boldsymbol{y})=p(\boldsymbol{x} \mid \boldsymbol{y}) p(\boldsymbol{y}) p(x,y)=p(x∣y)p(y)
并且:
p ( y ) = N ( μ y , Σ y y ) p(\boldsymbol{y}) =\mathcal{N}\left(\boldsymbol{\mu}_{y}, \boldsymbol{\Sigma}_{y y}\right) p(y)=N(μy,Σyy)
因此,由幂运算中同底数幂相乘,底数不变、指数相加的性质,可以得到:
p ( x ∣ y ) = N ( μ x + Σ x y Σ y y − 1 ( y − μ y ) , Σ x x − Σ x y Σ y y − 1 Σ y x ) p(\boldsymbol{x} \mid \boldsymbol{y}) =\mathcal{N}\left(\boldsymbol{\mu}_{x}+\boldsymbol{\Sigma}_{x y} \boldsymbol{\Sigma}_{y y}^{-1}\left(\boldsymbol{y}-\boldsymbol{\mu}_{y}\right), \boldsymbol{\Sigma}_{x x}-\boldsymbol{\Sigma}_{x y} \boldsymbol{\Sigma}_{y y}^{-1} \boldsymbol{\Sigma}_{y x}\right) p(x∣y)=N(μx+ΣxyΣyy−1(y−μy),Σxx−ΣxyΣyy−1Σyx)
这便是高斯推断中最重要的部分:从状态的先验概率分布出发,然后基于一些观测值来缩小这个范围。