论文研究-基于PBTM的海量微博主题发现.pdf

时间:2022-08-11 13:34:15
【文件属性】:

文件名称:论文研究-基于PBTM的海量微博主题发现.pdf

文件大小:915KB

文件格式:PDF

更新时间:2022-08-11 13:34:15

主题模型,主题发现,PBTM,吉布斯采样,分布式计算

BTM(biterm topic model)能较好挖掘出微博主题。但面对海量微博,BTM无法胜任,因为BTM挖掘主题速度过慢。基于此,提出一种基于吉布斯采样本主机biterm元组来更新主题单词全局矩阵的分布式的BTM模型PBTM(parallel biterm topic model),通过多台主机同时对语料库进行本主机biterm吉布斯采样,然后每次迭代后更新全局主题单词矩阵,直到采样收敛。通过MPI集群实现PBTM模型,实验结果表明,PBTM主题挖掘微博文本速度较BTM大大加快。


网友评论