基于PBTM的海量微博主题发现 (2015年)

时间:2021-04-29 00:35:11
【文件属性】:
文件名称:基于PBTM的海量微博主题发现 (2015年)
文件大小:915KB
文件格式:PDF
更新时间:2021-04-29 00:35:11
工程技术 论文 BTM(biterm topic model)能较好挖掘出微博主题。但面对海量微博,BTM无法胜任,因为BTM挖掘主题速度过慢。基于此,提出一种基于吉布斯采样本主机biterm元组来更新主题单词全局矩阵的分布式的BTM模型PBTM(parallel biterm topic model),通过多台主机同时对语料库进行本主机biterm吉布斯采样,然后每次迭代后更新全局主题单词矩阵,直到采样收敛。通过MPI集群实现PBTM模型,实验结果表明,PBTM主题挖掘微博文本速度较BTM大大加快。

网友评论