文件名称:再谈LDA:熵,先验和收敛
文件大小:951KB
文件格式:PDF
更新时间:2024-04-27 02:11:15
Latent Dirichlet allocation; entropy; adaptive
对于小数据或大数据,潜在狄利克雷分配(LDA)的推理算法可以大致分为期望最大化(EM),变分贝叶斯(VB)和折叠吉布斯抽样(GS)。 寻找对这些不同推理算法的统一理解是当前一个重要的开放问题。 在本文中,我们从熵的角度重新审视了这三种算法,并表明EM可以通过直接最小化观察到的词分布与LDA的预测分布之间的交叉熵来达到最佳的预测困惑度(LDA准确性的标准性能指标)。 此外,EM可以通过调整LDA的先验条件(例如Dirichlet超参数和主题数)来更改LDA的预测分布的熵,以最小化与观察到的单词分布的交叉熵。 最后,我们提出了自适应EM(AEM)算法,该算法比从小数据到大数据以及LDA模型的当前最先进的SparseLDA [20]和AliasLDA [12]都收敛更快,更准确。 核心思想是,通过连续迭代中E步之间的残差来衡量的活动主题数量显着减少,从而导致就主题数量而言摊销的σ(1)时间复杂度。 AEM的开源代码可在GitHub上获得。