论文研究-基于LDA模型和HowNet的多粒度子话题划分方法.pdf

时间:2022-08-11 13:13:02
【文件属性】:

文件名称:论文研究-基于LDA模型和HowNet的多粒度子话题划分方法.pdf

文件大小:926KB

文件格式:PDF

更新时间:2022-08-11 13:13:02

新闻报道,子话题划分,多粒度,狄利克雷分配模型,语义相似度计算

针对LDA建模结果较泛化、子话题间文本相似度较高等问题,提出一种基于狄利克雷分配模型(LDA)和知网(HowNet)语义词典相结合的多粒度子话题划分方法(MGH-LDA)。首先采用LDA模型对不同新闻源的新闻集合进行初划分,并根据文档贡献度获得相同新闻话题的文档集合;其次在TF-IDF模型基础上获取多粒度粗细特征,作为核心词特征集合来表征新闻文档,采用知网语义词典来计算新闻文档之间的相似度;最后通过single-pass增量聚类算法进行新闻文档的聚类,实现子话题划分。通过在真实新闻数据集上的实验,验证了该方法能有效地提高热点新闻话题子话题划分的准确率。


网友评论