文件名称:基于语义相似度的Web文档聚类算法 (2009年)
文件大小:265KB
文件格式:PDF
更新时间:2024-06-03 22:09:35
自然科学 论文
文章提出基于语义相似度的Web文档聚类算法―WDCSS算法,依据文档关键词之间的相似度生成最小树,通过概率统计来确定最小树中相似度阈值,并对最小树中进行切割,同时对较小的子类进行划分合并。实验表明,WDCSS不仅能为具有各种不同聚类形状的数据集准确地分析出数据中存在的合理聚类和例外样本,而且避免了用户参数选择所造成聚类质量降低问题。