文件名称:国科大/中科院-网络数据挖掘-徐君-大作业-垃圾短信识别系统设计-监督学习-分类-报告+数据+代码
文件大小:66.33MB
文件格式:ZIP
更新时间:2021-10-13 11:11:07
网络数据挖掘 垃圾短信识别 分类器
国科大 徐君 网络数据挖掘 大作业 个人报告+代码+数据,可参考 README 运行环境: Python 2.7.12 jieba 0.39 numpy 1.13.3 scikit-learn 0.19.1 scipy 1.0.0 请参照此运行环境进行运行前配置。 1.运行TextProcess.py获得classifiedLabel.txt、trainSetMsg.txt以及testSetMsg.txt,得到文本处理后的规则文本数据文件; 2.运行crossValidation.py进行交叉验证; 3.其中SVM算法运行时间较长(6-7小时左右),可以注释掉或者减少数据规模来测试; 4.可调用分类器中的predict方法来利用训练后的分类器进行分类预测(垃圾短信识别)。