文件名称:matlab精度检验代码-spam-classification:SVM实施将电子邮件分类为垃圾邮件还是非垃圾邮件
文件大小:21.91MB
文件格式:ZIP
更新时间:2024-06-10 21:10:49
系统开源
matlab精度检验代码垃圾邮件分类
该项目将邮件分类为垃圾邮件还是不垃圾邮件。
SVM已用于对邮件进行分类。
使用了cvx和libSVM软件包。
这些软件包是存储库的一部分。
该代码在matlab中。
有使用两个内核的脚本,一个是线性的,另一个是高斯的。
数据集
数据是2005
TREC公共垃圾邮件语料库的子集。
它包含一个训练集和一个测试集。
这两个文件使用相同的格式:每行代表电子邮件的空格分隔属性,第一行是电子邮件ID,第二行是垃圾邮件还是非垃圾邮件,其余是单词及其在此电子邮件中的出现编号。
呈现给您的数据集是原始数据集的已处理版本,其中已删除了非单词字符,并且已完成一些基本功能选择。
用法
运行transform_data.py
。
它解析数据集并生成两个文件,一个具有功能,一个具有邮件分类。
以这种方式使用脚本:`python
transform_data.py