nlp2015-spam:垃圾邮件分类

时间:2024-06-25 21:43:41
【文件属性】:

文件名称:nlp2015-spam:垃圾邮件分类

文件大小:379KB

文件格式:ZIP

更新时间:2024-06-25 21:43:41

Python

NLP垃圾邮件检测项目 注意:“ Split_60_30_10 ”是数据的 60-30-10% 拆分:60% 用于训练 N-Gram 模型,30% 用于在接下来的 30% 数据上训练主分类器(在经过训练的 N- Gram 模型),10% 用于测试主分类器。 为不同的数据拆分适当地重命名(或创建新)目录。 有关每个数据拆分的特定消息范围,请参阅Data/DATA_NOTES 。 设置 从基本目录(此 README 文件所在的位置)执行以下所有操作。 下载 Trec 2007 数据集并将其解压到项目目录中(链接如下)。 从以下链接下载并构建 Weka 和 Berkley 语言模型 1.1.6。 将构建保留在项目目录中,或者编辑项目脚本中的所有类路径。 如果以下目录不存在,则创建它们: mkdir -p Data/NGramTrain/Split_60_30_10/lower_char


【文件预览】:
nlp2015-spam-master
----Results()
--------Old()
----generate_ngram_files(2KB)
----build_all_ngram_models(293B)
----run(3KB)
----do_everything(2KB)
----eval_all_ngrams(1KB)
----ngram_to_weka.config(568B)
----eval_ngram(573B)
----submit_job(236B)
----submit_all_evals(74B)
----stopwords.txt(3KB)
----build_ngram_models(1KB)
----README.md(6KB)
----CondorJobFiles()
--------preprocess_ngrams3(575B)
--------ngram_to_weka_train(537B)
--------ngram_to_weka_test(532B)
--------preprocess_BoW_test(665B)
--------do_everything(431B)
--------Evals()
--------preprocess_ngrams2(575B)
--------preprocess_BoW_train(669B)
--------preprocess_BoW_meta_test(696B)
--------preprocess_BoW_meta_train(700B)
--------build_ngram_models(575B)
--------naivebayes(659B)
--------svm(635B)
--------preprocess_lengths(646B)
--------mn_naivebayes(679B)
--------convert(670B)
--------preprocess_ngrams(570B)
--------preprocess_ngrams1(575B)
----do_ngram_to_weka(1KB)
----ngram_to_weka.py(11KB)
----Data()
--------DATA_NOTES(1KB)
----SampleData()
--------bag_of_words.arff(365B)
--------text_pre.arff(1KB)
--------text.arff(342B)
----process_weka_output.py(2KB)
----berkeleylm_instructions.txt(2KB)
----.gitignore(205B)
----preprocess.py(18KB)
----convert(1KB)
----Outputs()
--------BoW_raw_lb.txt(286KB)
--------BoW_meta_nb.txt(257KB)
--------ngrams_345ch_lb.txt(282KB)
--------BoW_img2_mnb.txt(261KB)
--------ngrams_345ch_svm.txt(257KB)
--------BoW_raw_nb.txt(257KB)
--------ngrams_345ch_mnb.txt(286KB)
--------BoW_meta_lb.txt(286KB)
--------BoW_raw_mnb.txt(262KB)
--------ngrams_345ch_nb.txt(285KB)
--------BoW_raw_svm.txt(257KB)
--------BoW_meta_mnb.txt(261KB)
--------BoW_meta_svm.txt(257KB)
--------BoW_img2_svm.txt(257KB)

网友评论

相关文章