文件名称:论文研究-基于集成学习的标题分类算法研究.pdf
文件大小:955KB
文件格式:PDF
更新时间:2022-08-11 16:20:26
自然语言处理,标题分类,集成学习,改进随机森林,OOB二维权重分布
标题分类是对一个标题性语句进行分类,通常这个标题是不超过20个字的短文本,内容精炼且概括性强。针对标题文本的特征稀疏性和含义不确定性,提出了一种融合随机森林与贝叶斯多项式的标题分类算法。该算法将贝叶斯多项式模型引入到随机森林底层分类器构建过程中,同时利用随机森林附带的OOB数据提出了一种基于二维权重分布的投票机制。最后在图书馆真实书目数据上进行实验,针对分类性能与当前基于LDA主题扩展的SVM算法进行对比,实验结果表明在一定条件下,该方法性能稳定、表现较佳。