文件名称:改进性文本聚类资源研究
文件大小:186KB
文件格式:PDF
更新时间:2013-06-06 03:28:49
文本聚类
经典的文本聚类算法很多,K均值聚类算法是目前比较流行的一种基于划分的算法。该算法中文档 相似度计算通常采用向量空间模型,它们在假设术语间相互独立的基础上,通过逻辑表达式或向量间的 内积反映用户查询和文档的相似度,将查询结果按相似度的降序排列后提供给用户[1]。它们对用户的查 询项进行精确匹配,因此只能反映用户所要检索内容的某一方面,无法保证语义概念上的匹配。而且算法 效果与样本输入的次序和词频相关,只有当句子包含的词数足够多时,相关的词才会重复出现,其效果才 能体现出来,因此该算法只适合于词频较大的大文档_2]。对于小文本文档,K均值聚类算法很难反映出其 语义特征,检索效果较差。为此,笔者提出了一种改进型的K均值聚类算法,解决中小文档聚类问题。