文件名称:基于权值调整的文本分类改进方法 (2003年)
文件大小:291KB
文件格式:PDF
更新时间:2024-05-14 21:41:02
自然科学 论文
文本分类是文本挖掘的基础与核心,可广泛应用于传统的情报检索和 Web信息的检索与挖掘等。提出了一种利用权值调整思想对向量空间法(VSM)和朴素 Bayes分类器(NBC)进行改进的文本分类方法,并探讨了利用 EM算法进行无导师 Bayes分类的方法,设计和实现了一个中英文文本分类系统 CZW。3组实验数据表明,用某些评估函数调节单词权值可有效提高 VSM和 NBC等文本分类模型的精度,并且训练文本规模越大,改进的效果越明显。NBC的分类精度最高可达 86。