文件名称:论文研究-基于词出现和信息增益的连续属性离散化方法.pdf
文件大小:583KB
文件格式:PDF
更新时间:2022-08-11 16:27:00
连续属性的离散化,信息增益,文本分类
连续属性的离散化是文本分类任务中数据预处理阶段的一项重要技术。针对机器学习领域中的诸多优秀算法只能处理离散属性的特点,提出一种基于词出现和信息增益相结合的多区间连续属性离散化方法(multi-interval discretization based on term presence and information gain,MTPIG)。并将MTPIG算法应用到了分类算法AdaBoost.MH中,给出实验结果及分析。实验结果表明,使用MTPIG算法处理文本分类中的数据,其过程简单高效,预测精度高,可理解