lucene-wikipedia:基于Lucene的多句上下文检索器,用于开放域质量检查设置

时间:2024-06-02 06:13:45
【文件属性】:

文件名称:lucene-wikipedia:基于Lucene的多句上下文检索器,用于开放域质量检查设置

文件大小:75KB

文件格式:ZIP

更新时间:2024-06-02 06:13:45

Java

Lucene多句子上下文检索器 这个基于Lucene的QA数据集索引可在查询条件下检索多句子上下文。 它是我们开放域质量检查管道中的主要组件,充当相关文本的检索器,供读者处理和输出相应查询的答案。 索引编制 对于每个数据集,我们创建两个索引:1)具有字段(文章ID,文章标题,文章文本)的文章级别索引,2)具有字段(文章ID,句子ID,句子)的句子级别索引文本)。 通过将文章文本拆分为句子(使用OpenNLP句子拆分器)并用递增的句子ID标记每个句子,可以创建第二个句子索引。 SQuAD(开放) 由于SQuAD基于选定的Wikipedia段落,我们通过在整个02-jan-18 Wikipedia转储的顶部创建Lucene索引,将其转换为开放域设置。 我们使用了从转储中提取和清除文本,最后将它们转换为json文件。 然后,我们应用Lucene代码创建索引。 问答 原始数据集分为两个来源:We


【文件预览】:
lucene-wikipedia-master
----pom.xml(3KB)
----target()
--------maven-status()
--------classes()
--------maven-archiver()
--------wikilucene-1.0.0.jar(30KB)
----bridge.py(2KB)
----LICENSE(11KB)
----.settings()
--------org.eclipse.m2e.core.prefs(86B)
--------org.eclipse.jdt.core.prefs(238B)
----src()
--------.DS_Store(6KB)
--------main()
----.project(539B)
----.classpath(998B)
----.gitignore(18B)
----README.md(6KB)

网友评论