文件名称:基于关键词提取方法的快速文本分类系统
文件大小:192KB
文件格式:PDF
更新时间:2014-07-28 10:00:55
关键词的提取是进行计算机自动文本分类和其他文本数据挖掘应用的关键。系统从语言的词性角度 考虑,对传统的最大匹配分词法进行了改进,提出一种基于动词、虚词和停用词三个较小词库的快速分词方法 ( FS) ,并利用TFIDF算法来筛选出关键词以完成将Web文档进行快速有效分类的目的。实验表明,该方法在不 影响分类准确率的情况下,分类的速度明显提高。 关键词: 计算机应用; 中文信息处理; 关键词提取; Web文档分类