1. Approximation
Probabilistic model 中的一个 central task :给定一组observation X 后,计算latent variables Z 的后验概率P( Z | X)。以及一些expectation with respect to P(Z| X)。很多情况下P( Z | X)是analytically intractable 的。这就需要有approximation 方法。
Latent variable :只要没有观察到的都归为 latent variable ,比如在 Bayesian 中的parameter(它们是random variable )。在Probablistic Graphica l Model 的观点看,parameter和狭义的latent variable 的不同就是,parameter的个数和观察到的数据的个数无关,但是狭义的latent
variable 则与其相关。
Approximation 方法:分为deterministic 方法和stochatic 方法。前者包括 Laplace approximation ,variational inference 等;后者包括 MCMC sampling 等。
2. Variational inference
问题:一个 probablistic model P( X, Z ),含有observed variables X={x1,x2...} 和latent variable Z={z1,z2...}
目的:为后验概率 P( Z | X)和model evidence P(X) 找approximation 。
思路:
引入一个分布q(Z) ,从而把P(X)分解开来:ln p(x) = L(q) + KL(q||p)。其中
注意,现在要用q(Z) 来近似P( Z | X)。如何衡量二者的相近程度呢?上式中的KL(q||p) 正是一个合适的指标。因此,现在就要找到一个q(Z),使KL(q||p) 最小化。
然后,P( Z|X)本身就是intractable 的,所以直接难以找到使 KL(q||p) 最小化的 q( Z )。但是如果joint distribution P( X, Z )更容易处理,那么就有了一个思路:由于ln p(X)的值跟q( Z )的选取无关,所以最小化KL(q||p) ,等价于最大化 L(q) 。
假设:q( Z )的范围是极其大的,为了便于求出最大化L(q) 的解,需要给q( Z )一些限制。给予限制的原则是兼顾tractable 与flexible 。常用的限制/ 假设是:
即分解性质。其中的zi构成Z 的一个不交子集族.
q( Z )被称为 variational distribution。