基于词共现图的中文微博新闻话题识别 (2012年)

时间:2024-06-09 15:13:11
【文件属性】:

文件名称:基于词共现图的中文微博新闻话题识别 (2012年)

文件大小:585KB

文件格式:PDF

更新时间:2024-06-09 15:13:11

工程技术 论文

针对传统的话题检测算法主要适用于新闻网页和博客等长文本信息,而不能有效处理具有稀疏性的微博数据,给出一种基于词共现图的方法来识别微博中的新闻话题.该方法首先在微博数据预处理之后,综合相对词频和词频增加率2个因素抽取微博数据中的主题词.然后根据主题词间的共现度构建词共现图,把词共现图中每个不连通的簇集看成一个新闻话题,并使用每个簇集中包含信息量较大的几个主题词来表示微博新闻话题.最后在微博数据集上进行实验,实现了对微博中新闻话题的识别,验证了该方法的有效性.


网友评论