文件名称:基于语义共现图的中文微博新闻话题识别 (2014年)
文件大小:1.14MB
文件格式:PDF
更新时间:2024-06-15 05:48:36
工程技术 论文
提出一种在大规模微博短文本数据集中自动发现新闻话题的方法。该方法在微博数据预处理之后,综合TF-IDF、文档频率增长率和命名实体识别等几个因素抽取微博数据中的主题词。根据主题词之间的语义关系来构建主题词的语义共现图,计算出语义共现图的连通子图,把每个不连通的簇集看成一个新闻话题。在新浪微博数据集上进行实验,实现了对微博中新闻话题的识别。该方法能较好检测出当前时间的热门话题,能够在一定程度上有效地避免错误传播,实验结果验证了该方法的有效性。