文件名称:plagiarism:窃检测服务
文件大小:46.88MB
文件格式:ZIP
更新时间:2024-04-16 21:02:00
multilingual python rust keras plagiarism-detection
多语言窃检测 作为National University of Kyiv-Mohyla Academy (NaUKMA)学士学位的文凭项目 作者 Danylo Kravchenko,应用数学4 电子邮件: 文凭正式名称: Applying Deep Learning for text analysis 该项目 该系统允许检测不同语言的窃。 当前可用的选项是乌克兰语和英语。 系统从可用文本中以任何语言获取2个文本,并检测其中的抄袭。 系统的核心是为文本的二进制分类而构建的Keras模型。 该模型的基本体系结构是BERT变压器。 不幸的是,互联网上有一些抄袭数据集,而且它们很小,无法进行培训,因此我采用了预先训练的bert_multi_cased_L-12_H-768_A-12模型,该模型最初是在Wikipedia和书籍语料库上进行训练的。 然后,我已经在对其进行了微调,以使该模型对文本的