文件名称:论文研究-基于SOM聚类的微博话题发现.pdf
文件大小:1.18MB
文件格式:PDF
更新时间:2022-08-11 15:52:52
话题发现,词向量模型,文本相似度,短文本,SOM聚类
随着微博用户的增多,微博平台的信息更新频繁。针对微博文本的数据稀疏性、新词多、用语不规范等特点,提出了基于SOM聚类的微博话题发现方法。从原始语料中对文本进行预处理,通过词向量模型对短文本进行特征提取,降低了向量维度过高带来的计算量繁重问题。采用改进的SOM对话题进行聚类,该算法改善了传统文本聚类的不足,进而能有效地发现话题。实验表明该算法较传统文本聚类算法的综合指标F值有明显提高。