文件名称:Information-Retrieval:网络信息检索系统实现
文件大小:29.13MB
文件格式:ZIP
更新时间:2024-05-29 13:13:45
Java
信息检索系统 网络信息检索课程实验,实现一个基于向量模型的网络信息检索系统,能够根据输入的查询语句,输出指定数目的按照相关度排序的url。 Webpage Preprocessing 网页内容预处理实现,主要流程是从给定文件中读取url,获取url对应网页,从网页中提取正文,分词后存储到文件中。 AnalyzerImpl:实现对网页正文和网页关键词(标题与meta标签中的keywords)的提取,以及分词,解析结果返回Page对象。 其中网页解析基于 jsoup 1.11.3 实现,分词基于 ansj 5.1.6 实现。 支持停用词的设置,网页正文提取参考了网络上基于文本密度的方法(见引用)。 PageWriterImpl:实现将网页词袋模型(Page对象)写入文件,文件保存在指定的目录下。 文件格式:文件名为url索引号,文件中第一行为url,第二行为关键词分词结果,第三行为网页正文分词
【文件预览】:
Information-Retrieval-master
----.gitignore(1KB)
----Searcher()
--------src()
----Webpage Preprocessing()
--------src()
----README.md(3KB)
----Index()
--------src()
----lib()
--------nlp-lang-1.7.7.jar(7.73MB)
--------jsoup-1.11.3.jar(386KB)
--------ansj_seg-5.1.6.jar(21.35MB)