文件名称:基于WBLDA的学术文献摘要主题聚类
文件大小:1.75MB
文件格式:PDF
更新时间:2024-05-20 08:17:29
主题聚类 增大词频特征提取法 优化主题数目作者层主题聚类模型
为使科研人员节省时间,高效阅读学术文献信息,提出一种学术文献摘要的主题聚类模型——优化主题数目作者层主题聚类模型(WBLDA)。首先在预处理阶段,自定义符合学术文献摘要特点的分词词典和停用词词典,解决学术文献摘要分词不准确的问题;在特征提取阶段,提出增大词频特征提取方法(ITF-IDF),使用词频放大法来增大词频,弱化文本长度对特征权重的影响,提取出更加符合学术文献摘要方向的特征词;最后,针对传统主题模型忽略作者这一重要属性的缺点,在主题聚类模型中引入学术文献摘要的作者信息,构建文档—主题+作者—词的WBLDA模型,同时使用贝叶斯准则优化主题聚类模型的主题数。通过对学术文献摘要数据集仿真实验结果表明,与TF-IDF相比,ITF-IDF方法的特征提取准确率更高;与LDA相比,WBLDA模型的聚类纯度和F-score值也更高,选择出的主题更加准确,更能代表摘要的学术方向。