Yin Guoqing Postgraduate of NJUPT

近似推断


当后验分布非常复杂时,为了计算的方便使用简单的分布去近似复杂的积分,如可以将变量进行分组,分组间满足条件独立性,q(θ,μ,σ)=q1(θ)q2(μ,σ),且由于 指数族分布的优良性质,常常将q1,q2假设为指数族分布。

拉普拉斯近似

一维空间

拉普拉斯近似是用高斯分布近似复杂分布,假设概率分布p(z)=1Zf(z),Z是概率归一化项,假设近似分布为q(z),

  • z0,满足p(z0)=0
  • 高斯分布的log是一个二次函数,所以对lnf(z)lnf(z)进行泰勒展开,以z0为中心: lnf(z)lnf(z0)12A(zz0)2,A=d2dz2lnf(x)|z=z0

两边取指数:

f(z)f(z0)exp{A2(zz0)2}

归一化高斯函数:

q(z)=(A2π)1/2exp{A2(zz0)2}

高维空间

近似分布p(z)=f(z)/Z,泰勒展开,以z0=f(z) 为中心:

lnf(z)lnf(z0)12(zz0)A(zz0),A=lnf(z)|z=z0

两边取指数:

f(z)f(z0)exp{12(zz0)A(zz0)}

归一化高斯函数:

q(z)=|A|1/2(2π)M/2exp{12(zz0)A(zz0)}=N(z|z0,A1)

变分推断

涉及泛函的概念,泛函中函数为自变量,熵就是泛函的一个例子,当概率分布变化时,熵值发生变化。

KL(q||p)

在EM算法中有下式成立:

注意式中的Z包括隐藏变量和参数。

关于最小化L(q)的推导,建议看这里

KL(p||q)

另一种情形是最小化KL(p||q),最优解是边缘分布,边缘分布的求解可以参考图模型中的期望传播框架。

两种散度是不同的,尤其是当原本复杂分布是多峰分布时,第一种的宽度比第二种窄,具体不同可以看PRML第十章中的图。

优点

变分贝叶斯推断的优点是可以确定混合模型中的分量个数,而不需要进行交叉验证。


下一篇 CNN网络

Comments