分层文档的主题模型

时间:2024-05-01 16:11:51
【文件属性】:

文件名称:分层文档的主题模型

文件大小:268KB

文件格式:PDF

更新时间:2024-05-01 16:11:51

Topic Model, Hierarchical Documents, Short

随着在线通讯的迅猛发展,通过短文本语料库寻找主题变得越来越重要。 但是,传统的主题挖掘方法可能会由于每个短文本中缺少上下文而失败。 幸运的是,大部分在线短文本经常与冗长的文本同时出现,例如带有产品描述的评论和带有新闻文章的评论。 这两种文本是按层次结构组织的,它们之间隐藏的主题关系可以用来增强双方的主题学习。 因此,在本文中,我们为(h)分层(d)文件提出了一个主题模型,称为hdLDA,以捕获这些文本的分层结构。 具体而言,在hdLDA中,每个短文本在两个主题上都有概率分布,一个主题来自长文本基础的一组主题,另一个主题仅由短文本构成的主题组。 通过这种假设,以相互加强的方式学习了hdLDA中的短文本和冗长文档的主题。 在新闻报道和用户评论的数据集上进行的大量实验表明,与基准方法和最新方法相比,我们的方法发现了针对短文本和冗长文档的更突出和更全面的主题。


网友评论