Information-Retrieval:Java、Lucene 和信息检索

时间:2024-08-02 09:27:06
【文件属性】:

文件名称:Information-Retrieval:Java、Lucene 和信息检索

文件大小:1.12MB

文件格式:ZIP

更新时间:2024-08-02 09:27:06

Java

信息检索 这些程序是为信息检索类创建的。 使用 lucene 索引和 trec 语料库作为测试数据用 java 编写。 作业 1 作业分三部分解析TREC->我用xml解析器解析了语料库中的所有trec doc。 索引-> 使用 lucene 库为上一步提取的标记创建索引。 不同的分析器->使用 lucene 库中的关键字、停用词、标准和简单分析器,并比较了每个分析器的索引性能。 作业-2 任务排序的三个部分 -> 使用从先前任务中获得的索引,我们使用 TF-IDF 对文档进行排序。 Easy Search-> 我们从给定的文档中生成查询(主题和描述作为查询传递给上面的排名函数)。 结果是基于 TF-IDF 的排名结果。 比较算法->比较不同的搜索模型,如Dirichlet、向量空间模型、BM25、JM平滑


【文件预览】:
Information-Retrieval-master
----assignment-2()
--------vidjoshi-a2()
--------Assignment 2.pdf(658KB)
----README.md(981B)
----assignment-1()
--------indexComparison.java(7KB)
--------trecFileRead.java(4KB)
--------vidjoshi_a1.pdf(246KB)
--------Assignment+1.pdf(100KB)
--------generateIndex.java(6KB)

网友评论