基于信息增益的文本特征权重改进算法 (2011年)

时间:2021-05-22 03:55:45
【文件属性】:
文件名称:基于信息增益的文本特征权重改进算法 (2011年)
文件大小:205KB
文件格式:PDF
更新时间:2021-05-22 03:55:45
工程技术 论文 传统tf.idf 算法中的idf 函数只能从宏观上评价特征区分不同文档的能力,无法反映特征在训练集各文档以及各类别中分布比例上的差异对特征权重计算结果的影响,降低文本表示的准确性。针对以上问题,提出一种改进的特征权重计算方法tf.igt.igC。该方法从考察特征分布入手,通过引入信息论中信息增益的概念,实现对上述特征分布具体维度的综合考虑,克服传统公式存在的不足。实验结果表明,与tf.idf.ig 和tf.idf.igc 2 种特征权重计算方法相比,tf.igt.igC 在计算特征权重时更加有效。

网友评论