文件名称:Wikipedia2Lucene:从HDFS导入Wikipedia XML转储到Lucene索引或Elasticsearch,并基于Lucene的MoreLikeThis查询检索类似的Wikipedia文章
文件大小:229KB
文件格式:ZIP
更新时间:2024-06-04 01:45:11
Java
* 从HDFS导入Wikipedia XML转储到Lucene索引或Elasticsearch,并基于Lucene的MoreLikeThis查询检索类似的Wikipedia文章。 此应用程序是基于文本的文档相似性度量的实现,该度量被用作的研究中的基准度量。 将Wikipedia文章添加到Elasticsearch索引 用法 java -cp WikiLucene.jar de.tuberlin.dima.mschwarzer.lucene.WikiElasticSearch \ WIKI-XML-DUMP HOST INDEX TYPE [START] [LIMIT] [RESET] 参数 WIKI-XML-DUMP:Wikipedia XML转储的路径(位于HDFS上)。 主机:Elasticsearch NameNode的主机或IP。 索引:Elasticsea
【文件预览】:
Wikipedia2Lucene-master
----src()
--------main()
--------test()
----support()
--------elasticsearch.txt(5KB)
----pom.xml(2KB)
----README.md(2KB)
----.idea()
--------misc.xml(567B)
--------encodings.xml(166B)
--------libraries()
--------vcs.xml(218B)
--------copyright()
--------scopes()
--------artifacts()
--------compiler.xml(1KB)
--------.name(10B)
--------modules.xml(262B)
----WikiLucene.iml(7KB)