文件名称:论文研究-一种基于聚类加权的文本特征生成算法.pdf
文件大小:1.07MB
文件格式:PDF
更新时间:2022-08-11 13:20:07
文本分类, 特征生成, 权值计算, 特征聚类, 信息熵
目前的文本特征生成算法一般采用加权的文本向量空间模型, 该模型使用TF-IDF评价函数来计算单个特征的权值, 这种算法生成的文本特征冗余度往往都比较高。针对这一问题, 采用了一种基于聚类加权的文本特征生成算法, 首先对特征候选集进行初始加权处理; 然后通过语义和信息熵对特征进行进一步加权处理; 最后使用特征聚类对冗余特征进行剔除。实验表明该算法比传统的TF-IDF算法的平均分类准确率高出5%左右。