当后验分布非常复杂时,为了计算的方便使用简单的分布去近似复杂的积分,如可以将变量进行分组,分组间满足条件独立性,q(θ,μ,σ)=q1(θ)∗q2(μ,σ),且由于 指数族分布的优良性质,常常将q1,q2假设为指数族分布。
拉普拉斯近似
一维空间
拉普拉斯近似是用高斯分布近似复杂分布,假设概率分布p(z)=1Zf(z),Z是概率归一化项,假设近似分布为q(z),
- 求z0,满足p′(z0)=0
- 高斯分布的log是一个二次函数,所以对lnf(z)lnf(z)进行泰勒展开,以z0为中心: lnf(z)≃lnf(z0)−12A(z−z0)2,A=−d2dz2lnf(x)|z=z0
两边取指数:
f(z)≃f(z0)exp{−A2(z−z0)2}归一化高斯函数:
q(z)=(A2π)1/2exp{−A2(z−z0)2}高维空间
近似分布p(z)=f(z)/Z,泰勒展开,以z0=∇f(z) 为中心:
lnf(z)≃lnf(z0)−12(z−z0)⊤A(z−z0),A=−▽▽lnf(z)|z=z0两边取指数:
f(z)≃f(z0)exp{−12(z−z0)⊤A(z−z0)}归一化高斯函数:
q(z)=|A|1/2(2π)M/2exp{−12(z−z0)⊤A(z−z0)}=N(z|z0,A−1)变分推断
涉及泛函的概念,泛函中函数为自变量,熵就是泛函的一个例子,当概率分布变化时,熵值发生变化。
KL(q||p)
在EM算法中有下式成立:

注意式中的Z包括隐藏变量和参数。
关于最小化L(q)的推导,建议看这里。
KL(p||q)
另一种情形是最小化KL(p||q),最优解是边缘分布,边缘分布的求解可以参考图模型中的期望传播框架。

两种散度是不同的,尤其是当原本复杂分布是多峰分布时,第一种的宽度比第二种窄,具体不同可以看PRML第十章中的图。
优点
变分贝叶斯推断的优点是可以确定混合模型中的分量个数,而不需要进行交叉验证。