指数分布族(Exponential Family)相关公式推导及在变分推断中的应用

时间:2024-04-05 08:37:08

本文作者:合肥工业大学 管理学院 钱洋 email:[email protected] 内容可能有不到之处,欢迎交流。
未经本人允许禁止转载

指数分布族的概念

指数分布族是一系列分布的统称,包含连续和离散的相关分布。例如,正太分布(Gaussian)、泊松分布(Poisson)、二项分布(Bernoulli)、指数分布(exponential)、Gamma分布、多项式分布(multivariate)等。
指数分布族中的分布以及指数分布族的性质,经常用于机器学习(machine learning)模型的参数假设以及参数推理中。较为典型的模型是生成模型,例如主题模型(Topic Models)中经常使用到的共轭分布(multivariate和Dirichlet分布、Bernoulli和Beta分布、Poisson和gamma分布等)。指数分布族中的共轭经常用于参数推理、另外其统计特性经常用于变分推理。例如,有兴趣的可以详细阅读下面几篇文章:

  • Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of machine Learning research, 2003, 3(Jan): 993-1022.
  • Teh Y W, Newman D, Welling M. A collapsed variational Bayesian inference algorithm for latent Dirichlet allocation[C]//Advances in neural information processing systems. 2007: 1353-1360.
  • Blei D M, Kucukelbir A, McAuliffe J D. Variational inference: A review for statisticians[J]. Journal of the American Statistical Association, 2017, 112(518): 859-877. 【变分推断的综述性文章–案例代码为:https://blog.csdn.net/qy20115549/article/details/86694325】
  • Su J. Variational Inference: A Unified Framework of Generative Models and Some Revelations[J]. arXiv preprint arXiv:1807.05936, 2018. 【变分自编码器VAE、生成对抗网络GAN】
  • Wainwright M J, Jordan M I. Graphical models, exponential families, and variational inference[J]. Foundations and Trends® in Machine Learning, 2008, 1(1–2): 1-305. 【一本书

指数分布族中的分布于都写成下面的形式:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
其中:

  • η\eta为自然参数(natural parameter),可以是向量形式
  • T(x)T(x)为充分统计量(sufficient statistic)
  • A(η)A(\eta)为累计函数(cumulant function),作用是确保概率和为1
  • h(x)h(x)为underlying measure

典型分布转化

Bernoulli分布

以下是Bernoulli分布的转化:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
对比上面的形式,可以得到:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用

Poisson分布

泊松分布的标准形式为:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
写成指数形式为:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
因此泊松分布也属于指数分布族,其相关参数为:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用

Gaussian分布

正太分布的形式为:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
写成指数形式为:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
因此,也满足指数组分布:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
高斯分布有两个参数,因此自然参数以及充分统计量都有两个。

多元Gaussian分布

标准形式为:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
写成指数族形式:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
对比:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
可以得到:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
自然参数为:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
cumulant function为:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用

Multinomial分布

多项式分布的形式为:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
重写为:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
从这里发现,累计函数A(η)A(\eta)为0了,实际上并不为0。继续转化有:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
这里有:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
因此,可以得到:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
由这个式子可以转化得到πk\pi_{k},即:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
可以看出这个式子是softmax函数。
另外,我们也可以获得:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用

变分推断应用

在变分推理中,经常使用到的是A(η)A(\eta)性质,即A(η)A(\eta)(η(\eta的一阶偏导数:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
上面这个公式,可以由最原始的公式得到。继续计算有:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
例如,对二项分布而言:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
对正太分布而言:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
在变分推理中,经常要计算期望,通过这个性质,便可以将期望计算转化成求导计算。例如,

LDA模型

LDA的概率图表示如下:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
主题分布θ\theta服从先验为α\alpha的Dirichlet分布,即:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
其中:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
θ\theta的分布进行转化有:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
因此,可以看出Dirichlet分布也属指数分布,由上面的公式得到:
自然参数ηi\eta _{i}:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
sufficient statistic为:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
log normalizer或cumulant function为:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
基于上面这三个公式有:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
在LDA的变分推理中,需要将下界ELOB转化为多项期望,如下面所示:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
此公式中,包含多个期望,在计算时,每个期望都需要推导出公式。由于前面已经分析参数θ\theta,下面只例举Eq[logp(θjα)]E_q[logp(\theta_j|\alpha)]:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
在上面公式标红的部分,便可转化成偏导的计算,这里θ\theta对应的变分参数为γ\gamma,即:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
这里的log normalizer或cumulant function为:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
进而可以计算公式标红的期望:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
其中,Ψ()\Psi(\cdot)为digamma函数,及Gamma函数对数的一阶偏导数。因此有:
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
关于其他期望的求法与这个类似,这里不作过多赘述,有兴趣的可以学习这篇文章:
Inference Methods for Latent Dirichlet Allocation

参考内容

https://people.eecs.berkeley.edu/~jordan/courses/260-spring10/other-readings/chapter8.pdf
http://www.cs.columbia.edu/~jebara/4771/tutorials/lecture12.pdf
https://people.eecs.berkeley.edu/~jordan/courses/260-spring10/other-readings/chapter9.pdf
http://times.cs.uiuc.edu/course/598f16/notes/lda-survey.pdf [lda推理]