【文件属性】:
文件名称:国科大/中科院-网络数据挖掘-徐君-大作业-垃圾短信识别系统设计-监督学习-分类-报告+数据+代码
文件大小:66.33MB
文件格式:ZIP
更新时间:2021-10-13 11:11:07
网络数据挖掘 垃圾短信识别 分类器
国科大 徐君 网络数据挖掘 大作业
个人报告+代码+数据,可参考
README
运行环境:
Python 2.7.12
jieba 0.39
numpy 1.13.3
scikit-learn 0.19.1
scipy 1.0.0
请参照此运行环境进行运行前配置。
1.运行TextProcess.py获得classifiedLabel.txt、trainSetMsg.txt以及testSetMsg.txt,得到文本处理后的规则文本数据文件;
2.运行crossValidation.py进行交叉验证;
3.其中SVM算法运行时间较长(6-7小时左右),可以注释掉或者减少数据规模来测试;
4.可调用分类器中的predict方法来利用训练后的分类器进行分类预测(垃圾短信识别)。