Information-Retrieval:网络信息检索系统实现下载

【文件属性】：

文件名称：Information-Retrieval:网络信息检索系统实现

文件大小：29.13MB

文件格式：ZIP

更新时间：2024-05-29 13:13:45

Java

信息检索系统网络信息检索课程实验，实现一个基于向量模型的网络信息检索系统，能够根据输入的查询语句，输出指定数目的按照相关度排序的url。 Webpage Preprocessing 网页内容预处理实现，主要流程是从给定文件中读取url，获取url对应网页，从网页中提取正文，分词后存储到文件中。 AnalyzerImpl：实现对网页正文和网页关键词（标题与meta标签中的keywords）的提取，以及分词，解析结果返回Page对象。其中网页解析基于 jsoup 1.11.3 实现，分词基于 ansj 5.1.6 实现。支持停用词的设置，网页正文提取参考了网络上基于文本密度的方法（见引用）。 PageWriterImpl：实现将网页词袋模型（Page对象）写入文件，文件保存在指定的目录下。文件格式：文件名为url索引号，文件中第一行为url，第二行为关键词分词结果，第三行为网页正文分词

立即下载

【文件预览】：
Information-Retrieval-master
----.gitignore(1KB)
----Searcher()
--------src()
----Webpage Preprocessing()
--------src()
----README.md(3KB)
----Index()
--------src()
----lib()
--------nlp-lang-1.7.7.jar(7.73MB)
--------jsoup-1.11.3.jar(386KB)
--------ansj_seg-5.1.6.jar(21.35MB)

秒客网

Information-Retrieval:网络信息检索系统实现

网友评论

相关文章