plagiarism-detection:Udacity机器学习工程(MLE)纳米学位计划的窃检测项目

时间:2024-04-14 18:35:34
【文件属性】:

文件名称:plagiarism-detection:Udacity机器学习工程(MLE)纳米学位计划的窃检测项目

文件大小:804KB

文件格式:ZIP

更新时间:2024-04-14 18:35:34

HTML

抄袭项目,机器学习部署 该存储库包含用于使用AWS SageMaker部署a窃检测器的代码和相关文件。 项目概况 在这个项目中,您将负责构建a窃检测器,该检测器将检查文本文件并执行二进制分类。 根据该文本文件与提供的源文本的相似程度,将该文件标记为抄袭或不抄袭。 侦查窃是一个活跃的研究领域。 这项任务很艰巨,解释的答案和原始作品之间的区别通常并不那么明显。 该项目将分为三个主要笔记本: 笔记本1:数据探索 加载窃文本数据的语料库。 探索现有的数据功能和数据分布。 这第一台笔记本是不是在你的最终项目要求提交的。 笔记本2:功能工程 清理并预处理文本数据。 定义用于比较答案文本和源文本的相似性的特征,并提取相似性特征。 通过分析不同功能之间的相关性来选择“良好”功能。 创建包含用于训练/测试数据点的相关功能和类标签的训练/测试.csv文件。 笔记本3:在SageMaker中训


【文件预览】:
plagiarism-detection-main
----matrix_1.png(34KB)
----predict.py(2KB)
----README.md(2KB)
----matrix_6_complete.png(24KB)
----2_Plagiarism_Feature_Engineering.html(400KB)
----source_pytorch()
--------predict.py(2KB)
--------train.py(7KB)
--------model.py(2KB)
----train.py(7KB)
----LICENSE(1KB)
----plagiarism_data()
--------test.csv(1KB)
--------train.csv(3KB)
----common_subseq_words.png(132KB)
----model.py(2KB)
----problem_unittests.py(6KB)
----1_Data_Exploration.ipynb(28KB)
----3_Training_a_Model.html(388KB)
----matrix_3_match.png(24KB)
----3_Training_a_Model.ipynb(100KB)
----2_Plagiarism_Feature_Engineering.ipynb(102KB)
----helpers.py(5KB)
----matrix_rules.png(60KB)
----notebook_ims()
--------matrix_1.png(34KB)
--------matrix_6_complete.png(24KB)
--------common_subseq_words.png(132KB)
--------matrix_3_match.png(24KB)
--------matrix_rules.png(60KB)
--------matrix_2.png(26KB)
----matrix_2.png(26KB)
----data.zip(111KB)

网友评论