文件名称:Technical-Paper-Recommendation:USC课程CSCI 544的最终课程项目-应用自然语言处理
文件大小:10KB
文件格式:ZIP
更新时间:2024-06-10 08:37:46
Python
基于内容的研究论文推荐系统 团队: 严厉的莎阿 玛南·阿帕德(Manan Upadhyay) Shivani Shah 项目详细信息: 外部图书馆: NLTK Wordnet语料库 Apache PDFBox库 方法: 我们使用了ACM,IEEE和ScienceDirect的技术论文作为PDF格式的数据集。 将为每个技术论文创建一个文本文件,其中包含从PDF中提取的原始信息。 在将提取的文本复制到文本文件之前,将对其进行清理,以使相应的.txt文件中仅包含英文单词。 然后将数据集作为种子文档的输入。 对其执行预处理,在该预处理中将生成TF-IDF向量以及对数频率加权。 然后将向量添加语义信息。 NLTK中的Wordnet语料库用于提取具有相似含义(同义词和上位词关系)的单词。 执行术语重新加权和术语扩展以增加数据集中所有技术论文的向量的权重。 一旦获得最终向量,就计算种子文
【文件预览】:
Technical-Paper-Recommendation-master
----MainRecom.py(2KB)
----PDFManager.java(2KB)
----PRCounter.py(1KB)
----Hello.txt(43B)
----test2.txt(23B)
----README.md(2KB)
----cosine_similarity.py(3KB)
----FileCounter.py(633B)
----wordnet.py(2KB)
----PdfToText.java(2KB)
----FileExtractor.py(552B)
----pre_processing.py(2KB)
----DocumentVectors.py(1KB)
----pdftotext.py(143B)
----test(12B)