再谈LDA：熵，先验和收敛下载

【文件属性】：

文件名称：再谈LDA：熵，先验和收敛

文件大小：951KB

文件格式：PDF

更新时间：2024-04-27 02:11:15

Latent Dirichlet allocation; entropy; adaptive

对于小数据或大数据，潜在狄利克雷分配（LDA）的推理算法可以大致分为期望最大化（EM），变分贝叶斯（VB）和折叠吉布斯抽样（GS）。寻找对这些不同推理算法的统一理解是当前一个重要的开放问题。在本文中，我们从熵的角度重新审视了这三种算法，并表明EM可以通过直接最小化观察到的词分布与LDA的预测分布之间的交叉熵来达到最佳的预测困惑度（LDA准确性的标准性能指标）。此外，EM可以通过调整LDA的先验条件（例如Dirichlet超参数和主题数）来更改LDA的预测分布的熵，以最小化与观察到的单词分布的交叉熵。最后，我们提出了自适应EM（AEM）算法，该算法比从小数据到大数据以及LDA模型的当前最先进的SparseLDA [20]和AliasLDA [12]都收敛更快，更准确。核心思想是，通过连续迭代中E步之间的残差来衡量的活动主题数量显着减少，从而导致就主题数量而言摊销的σ（1）时间复杂度。 AEM的开源代码可在GitHub上获得。

立即下载

秒客网

再谈LDA：熵，先验和收敛

网友评论

相关文章