文件名称:一种面向网络话题发现的增量文本聚类算法 (2011年)
文件大小:767KB
文件格式:PDF
更新时间:2024-05-18 15:59:58
工程技术 论文
为满足网络舆情监控系统中话题发现的需要,并克服经典 single-pass算法处理网络文本聚类中受输入 顺序影响和精度较低的主要不足,提出了 ICIT算法,继承了 single-pass算法的简单原理,保证了网络文本聚类的 实时性;通过正文分词时标注词性选择名词动词进行正文向量化、建立文本标题向量来与文本正文向量共同表 征文本、采用 average-link策略、引入“代”的概念分批进行文本的聚类,以及在每批次聚类后添加报道重新选择 调整所属的步骤来提高聚类的质量。实验证明了 ICIT算法在提高话题发现准