[lucene]03.lucene索引查看工具luke的使用

时间:2024-05-20 07:56:48

luke是个jar包,双击直接可以运行的,如下图所示,我们切记如果你是在网上自己下载的版本,一定要下载对应于你使用的lucene的版本的luke工具,双击luke的jar包之后,如下图:

[lucene]03.lucene索引查看工具luke的使用

我们需要选择lucene创建的索引所在目录,然后点击ok,之后如图:

[lucene]03.lucene索引查看工具luke的使用

通过上图,我们可以获得哪些信息呢?各位朋友可以自己研读一下这个overview概览里面的信息,单词不认识的查一下,相信你就明白了,我这里大致说一下你可能不理解的地方:

Index  name:索引所在的目录名称,因为我们程序把索引目录设置在D:\lucene\index,索引我们看到这里显示的就是D:\lucene\index。

number of  fields:域的个数。我们在上篇文章“[lucene]03.创建要检索文件的索引”中已经说过,lucene里的field可以卡成是关系型数据库里面的字段,当时在代码里面我们设置了三个field,分别是id,docurl,content,所以这里显示的是3.

number  of  documents:lucene的Document对象的个数,代码里面我们只对"D:\\lucene\\data\\tomcat如何配置根目录访问.html"这一个文件生成了索引,所以这里时1.

number  of  terms:每个field可能会被按照分词器指定的规则切分成多个单元,每个单元就叫做一个term,这里我们看到"D:\\lucene\\data\\tomcat如何配置根目录访问.html"这篇文章总共被切分成了707个单词或字符。

在下面这块区域:

[lucene]03.lucene索引查看工具luke的使用

我们可以看到conetent这个field被切分成了705个term,因为content里面我们在代码里设置了存放文件内容,分词器对文件的内容切分成了705个term,每一个term是什么呢,显示在右边的区域:

[lucene]03.lucene索引查看工具luke的使用

我们拖动滚动条:

[lucene]03.lucene索引查看工具luke的使用

发现汉字都是乱码,这是因为luke这里的显示有问题,对lucene内部的分词并没有影响。好的,luke的使用以及解释就说到这里吧,下次再看看另外一种分词器。