文件名称:垃圾邮件或非垃圾邮件
文件大小:28.78MB
文件格式:ZIP
更新时间:2024-03-03 22:58:57
JupyterNotebook
禁止网络钓鱼:使用深度学习检测鱼叉式网络钓鱼攻击 预读 文本分类背后的一个关键思想是文档表示。 我们最初的方法包括简单的CountVectorizer和TF-IDF Vectorizer。 我们处理电子邮件文档,并将词汇的计数/分数传递到我们的分类器中。 我们可以更进一步,将我们的文档表示为一系列嵌入了语义(使用某种概率性技术)的“单词向量”。 创建单词向量是获取大量文本语料并为每个单词创建向量的过程,以使在语料库*享公共上下文的词在向量空间中彼此紧邻。 一种简单的方法是将每个单词作为整数传递,该整数表示i_th_最常用的i_th_单词(+/-停用词)。 然后,我们将添加一个嵌入层,以学习词汇表中每个单词的单词向量。 一种方法是Skip Gram模型,该模型主要尝试在给定中心词的情况下预测上下文词。 为每个单词生成的单词向量表示在词汇中的单词在给定单词旁边可以找到的概率。 回到原始
【文件预览】:
to-spam-or-not-to-spam-master
----Spam Classification with Gmail (and Enron + SpamAssassin data).ipynb(75KB)
----benchmark_models_performance.png(234KB)
----logs()
--------fit()
----Spam Classification with Spam Assassin Data.ipynb(257KB)
----benchmark_models_time.png(232KB)
----LICENSE(1KB)
----LogRegPipeline.pmml(1.84MB)
----paper.md(24KB)
----.gitignore(2KB)
----README.md(4KB)
----Spam Classification with Enron Data.ipynb(76KB)
----enron1_trained_xgb_model.bin(81KB)
----best_model.h5(53.61MB)