文件名称:研究论文pla窃检测器:工具研究论文审稿人可以用来检测声称有多位作者的作品的一位研究人员
文件大小:244KB
文件格式:ZIP
更新时间:2024-03-05 16:49:25
pdf vpn naive-bayes-classifier pca-analysis pca
预测作者数 研究人员小组的写作质量,篇幅或风格是否与个人研究人员的写作方式不同? 我希望能够帮助研究人员在单击“提交”按钮之前对那里的论文有更多的了解。 这就是我问自己进入抓取pdf文件的问题。 配备了41000个链接和一个VPN后,我的计算机以2小时(其中我切换了IP)以3个小时为增量向arxiv.org发出了呼叫。 我着手将PDF文件转换为文本,成功率约为50%,清洗后剩下14,066,其中包括切断底部确认,删除转义词和使用TFIDFVectorizer。 我的模型试图确定是否有人写了这篇论文或更多。 我创建的基准模型每次都选择了一位以上研究人员中最普遍的类。 通过具有2000个max_features的朴素贝叶斯和过采样,我能够创建一个表现最佳的模型。 我开始使用PCA来了解单词之间如何最相关。 该图显示,最大的信息增益是k均值创建3个群集时。 在我的PCA分析中,与特定学术界
【文件预览】:
research-paper-plagiarism-detector-main
----images()
--------pca_single_authors.png(87KB)
--------download.png(30KB)
--------roc_curve_author>1.png(28KB)
--------k_means_clustering.png(9KB)
--------pca_.png(88KB)
----pdf_extracter.py(559B)
----cleaning.py(1KB)
----classes.txt(2KB)
----pca_kmean.py(2KB)
----scraping_cleaning()
--------cleaning.py(2KB)
--------arxiv_scraping.py(511B)
----arxiv_scraping.py(511B)
----README.md(3KB)
----modeling.py(4KB)