基于类别信息和特征熵的文本特征权重计算

时间:2024-05-20 06:44:49
【文件属性】:

文件名称:基于类别信息和特征熵的文本特征权重计算

文件大小:1.16MB

文件格式:PDF

更新时间:2024-05-20 06:44:49

文本分类 文本特征 权重计算

基于类别信息的特征权重计算方法对特征与类别的关系表达不够准确,即对于类别频率相同的特征无法比较其对类别的区分能力,因此要考虑特征在类内的分布情况。将特征的反类别频率(inverse category frequency,ICF)和类内熵(entropy)相结合引入到特征权重计算方案中,构造了两种有监督特征权重计算方案。在*文文本分类语料上进行的实验结果表明,该方法能够明显改善样本的空间分布状态并提高*文文本分类的微平均F1值。


网友评论