文件名称:文本聚类中的改进特征权重算法* (2012年)
文件大小:282KB
文件格式:PDF
更新时间:2024-06-07 03:46:11
自然科学 论文
本文提出了一种新的基于词频和文档频率的特征词权重计算方法ETFC.首先构造了新的函数作为特征词的类别区分度,加强了低文档频数特征词的类别区分能力.然后运用k-means算法进行聚类实验.结果表明,改进后的权重算法ETFC比现有的权重算法TFIDF和TFC在聚类纯度和算法的稳定性方面均有较大提高,从而表明改进策略是可行的.
文件名称:文本聚类中的改进特征权重算法* (2012年)
文件大小:282KB
文件格式:PDF
更新时间:2024-06-07 03:46:11
自然科学 论文
本文提出了一种新的基于词频和文档频率的特征词权重计算方法ETFC.首先构造了新的函数作为特征词的类别区分度,加强了低文档频数特征词的类别区分能力.然后运用k-means算法进行聚类实验.结果表明,改进后的权重算法ETFC比现有的权重算法TFIDF和TFC在聚类纯度和算法的稳定性方面均有较大提高,从而表明改进策略是可行的.