luke是个jar包,双击直接可以运行的,如下图所示,我们切记如果你是在网上自己下载的版本,一定要下载对应于你使用的lucene的版本的luke工具,双击luke的jar包之后,如下图:
我们需要选择lucene创建的索引所在目录,然后点击ok,之后如图:
通过上图,我们可以获得哪些信息呢?各位朋友可以自己研读一下这个overview概览里面的信息,单词不认识的查一下,相信你就明白了,我这里大致说一下你可能不理解的地方:
Index name:索引所在的目录名称,因为我们程序把索引目录设置在D:\lucene\index,索引我们看到这里显示的就是D:\lucene\index。
number of fields:域的个数。我们在上篇文章“[lucene]03.创建要检索文件的索引”中已经说过,lucene里的field可以卡成是关系型数据库里面的字段,当时在代码里面我们设置了三个field,分别是id,docurl,content,所以这里显示的是3.
number of documents:lucene的Document对象的个数,代码里面我们只对"D:\\lucene\\data\\tomcat如何配置根目录访问.html"这一个文件生成了索引,所以这里时1.
number of terms:每个field可能会被按照分词器指定的规则切分成多个单元,每个单元就叫做一个term,这里我们看到"D:\\lucene\\data\\tomcat如何配置根目录访问.html"这篇文章总共被切分成了707个单词或字符。
在下面这块区域:
我们可以看到conetent这个field被切分成了705个term,因为content里面我们在代码里设置了存放文件内容,分词器对文件的内容切分成了705个term,每一个term是什么呢,显示在右边的区域:
我们拖动滚动条:
发现汉字都是乱码,这是因为luke这里的显示有问题,对lucene内部的分词并没有影响。好的,luke的使用以及解释就说到这里吧,下次再看看另外一种分词器。