文件名称:朴素贝叶斯文本分类数据集
文件大小:17KB
文件格式:ZIP
更新时间:2023-09-21 08:53:50
朴素贝叶斯算法
朴素贝叶斯 分类算法数据集文本挖掘(Text Mining,从文字中获取信息)是一个比较宽泛的概念,这一技术在如今每天都有海量文本数据生成的时代越来越受到关注。目前,在机器学习模型的帮助下,包括情绪分析,文件分类,话题分类,文本总结,机器翻译等在内的诸多文本挖掘应用都已经实现了自动化。 在这些应用中,垃圾邮件过滤算是初学者实践文件分类的一个很不错的开始,例如 Gmail 账户里的“垃圾邮箱”就是一个垃圾邮件过滤的现实应用。下面我们将基于一份公开的邮件数据集 Ling-spam,编写一个垃圾邮件的过滤器。Ling-spam 数
【文件预览】:
----spam()
--------22.txt(351B)
--------19.txt(386B)
--------9.txt(161B)
--------21.txt(226B)
--------3.txt(402B)
--------18.txt(253B)
--------14.txt(204B)
--------12.txt(182B)
--------10.txt(212B)
--------7.txt(161B)
--------2.txt(291B)
--------23.txt(328B)
--------13.txt(245B)
--------6.txt(245B)
--------17.txt(241B)
--------11.txt(402B)
--------4.txt(226B)
--------5.txt(235B)
--------1.txt(235B)
--------25.txt(258B)
--------24.txt(328B)
--------16.txt(328B)
--------15.txt(328B)
--------8.txt(328B)
--------20.txt(351B)
----ham()
--------22.txt(324B)
--------19.txt(151B)
--------9.txt(142B)
--------21.txt(229B)
--------3.txt(364B)
--------18.txt(168B)
--------14.txt(162B)
--------12.txt(172B)
--------10.txt(82B)
--------7.txt(103B)
--------2.txt(232B)
--------23.txt(601B)
--------13.txt(164B)
--------6.txt(1KB)
--------17.txt(454B)
--------11.txt(122B)
--------4.txt(205B)
--------5.txt(113B)
--------1.txt(141B)
--------25.txt(88B)
--------24.txt(42B)
--------16.txt(90B)
--------15.txt(522B)
--------8.txt(634B)
--------20.txt(204B)