论文研究-一种面向网络话题发现的增量文本聚类算法.pdf

时间:2022-08-11 14:09:18
【文件属性】:

文件名称:论文研究-一种面向网络话题发现的增量文本聚类算法.pdf

文件大小:767KB

文件格式:PDF

更新时间:2022-08-11 14:09:18

话题发现,文本聚类,增量聚类,准确度,ICIT算法

为满足网络舆情监控系统中话题发现的需要,并克服经典single-pass算法处理网络文本聚类中受输入顺序影响和精度较低的主要不足,提出了ICIT算法,继承了single-pass算法的简单原理,保证了网络文本聚类的实时性;通过正文分词时标注词性选择名词动词进行正文向量化、建立文本标题向量来与文本正文向量共同表征文本、采用average-link策略、引入“代”的概念分批进行文本的聚类,以及在每批次聚类后添加报道重新选择调整所属的步骤来提高聚类的质量。实验证明了ICIT算法在提高话题发现准确度上的有效性和实用性。


网友评论