基于Spark的学术论文热点数据挖掘方法

时间:2024-07-27 00:02:10
【文件属性】:

文件名称:基于Spark的学术论文热点数据挖掘方法

文件大小:927KB

文件格式:PDF

更新时间:2024-07-27 00:02:10

SPARK机器学习数据挖掘

通过优化 Spark mllib机器学习库中的隐含狄利克雷分布(LDA)主题模型,提出一种改进的学术研究热点挖掘方法。采用LDA主题模型对学术论文关键词进行建模,利用困惑度确定主题模型的最佳主题个数,并将文档-主题和主题-词概率分布矩阵转化为文档-主题和主题-词评分矩阵。通过计算背景主题与评分矩阵中各主题之间的相似度对主题进行排序,挖掘出学术论文中的研究热点。实验结果表明,该方法能提高LDA主题模型的挖掘效果,有助于发现有价值的学术研究热点主题。


网友评论