改进性文本聚类资源研究下载

【文件属性】：

文件名称：改进性文本聚类资源研究

文件大小：186KB

文件格式：PDF

更新时间：2013-06-06 03:28:49

文本聚类

经典的文本聚类算法很多，K均值聚类算法是目前比较流行的一种基于划分的算法。该算法中文档相似度计算通常采用向量空间模型，它们在假设术语间相互独立的基础上，通过逻辑表达式或向量间的内积反映用户查询和文档的相似度，将查询结果按相似度的降序排列后提供给用户[1]。它们对用户的查询项进行精确匹配，因此只能反映用户所要检索内容的某一方面，无法保证语义概念上的匹配。而且算法效果与样本输入的次序和词频相关，只有当句子包含的词数足够多时，相关的词才会重复出现，其效果才能体现出来，因此该算法只适合于词频较大的大文档_2]。对于小文本文档，K均值聚类算法很难反映出其语义特征，检索效果较差。为此，笔者提出了一种改进型的K均值聚类算法，解决中小文档聚类问题。

立即下载

秒客网

改进性文本聚类资源研究

网友评论

相关文章