文件名称:naive-bayes-spam-detector:Python程序,使用Scikit-learn将电子邮件分类为垃圾邮件或非垃圾邮件
文件大小:1.15MB
文件格式:ZIP
更新时间:2024-03-10 04:06:39
天真贝叶斯垃圾邮件检测器 使用Scikit学习机器学习库将电子邮件分类为垃圾邮件或非垃圾邮件的Python程序。 先决条件 该程序是用Python 3编写的,并使用了Numpy,Pandas和Scikit-learn库。 数据集 该程序利用以csv格式存储的两个数据集。 主要数据集“垃圾邮件或非垃圾邮件”。 该集合是文件'20030228easyham.tar.bz2'和'20030228_spam.tar.bz2'的组合。 这组包含2500个火腿电子邮件示例和500个垃圾电子邮件示例。 该集合包含两列:电子邮件和标签。 电子邮件列中的元素是带有数字值和url的文本字符串,分别用单词“ NUMBER”和“ URL”替换。 标签列中的元素可以具有两个可能的值:如果电子邮件是非垃圾邮件,则为0;如果电子邮件是垃圾邮件,则为1。 辅助数据集包含伪造数据。 此集合遵循主要集合的样式; 两列用于
【文件预览】:
naive-bayes-spam-detector-master
----fake-spam-data.csv(1KB)
----classifier.py(4KB)
----LICENSE(34KB)
----spam_or_not_spam.csv(4.06MB)
----README.md(4KB)