文件名称:论文研究-基于语义关联和信息增益的TFIDF改进算法研究.pdf
文件大小:256KB
文件格式:PDF
更新时间:2022-08-11 17:49:40
词频反文档频率,特征提取,语义关联,信息增益,文本分类
基于词频反文档频率(term frequency inverse document frequency,TFIDF)的现有文本特征提取算法及其改进算法未能考虑类别内部词语之间的语义关联,如果脱离语义,提取出的特征不能很好地刻画文档的内容。为准确提取特征,在信息熵与信息增益的基础上,加入词语的语义关联因素,实现融合语义信息的特征提取,进而提出语义和信息增益相结合的TFIDF改进算法,该算法弥补了统计方法丢失语义信息的弊端。实验结果表明,该算法有效地提高了文本分类的精准率。