文件名称:论文研究-基于类别和改进的CHI相结合的特征选择方法.pdf
文件大小:935KB
文件格式:PDF
更新时间:2022-08-11 13:53:59
卡方检验,特征选择,情感分析,随机森林
针对传统CHI方法的低频词缺陷问题以及传统CHI方法是在全局范围内作特征选择,忽略了特征和类别间的相关性问题,提出了改进方法。通过引入类内和类间分布因子,减少了低频词带来的干扰,并且降低了特征词在类间均匀分布时对分类带来的负贡献,同时提出基于类别的特征选择方法。采用随机森林分类算法,将提出的方法应用在微博情感分析领域。实验结果表明,以上方法能够有效地提高微博情感分类的准确率、查全率和F值。