lucene.net搜索技术,附带学习资料

时间:2016-02-26 08:02:03
【文件属性】:

文件名称:lucene.net搜索技术,附带学习资料

文件大小:23.36MB

文件格式:RAR

更新时间:2016-02-26 08:02:03

lucene

【简介】   lucene.net好多人都知道的吧,反正我是最近才好好的看了一下,别笑我拿历史当新闻哦,不太了解Lucence的朋友先听我说两句哦。Lucene的知识主要分为索引、搜索、分析器、性能优化几个部分。索引和搜索没啥可说的,看几个例子就会了,来回那一套儿,按部就班做几个实验就熟悉了。分析器是Lucence的精华,又分为分词和过滤两部分,而且中文分词更是难点,我的例子里是用从博客园程序中提取出来的Lucene.Net.Analysis.Cn.dll来实现中文分词的,谁有中科院的那套中科院ICTCLAS分词工具的C#版麻烦提供一下哦。性能优化也很重要,因为如果要索引的文件比较大的话,建立索引的性能就会很大的下降,你可以调整IndexWriter的几个参数来优化索引性能,还有可以用IndexWriter.Optimize()方法(这个方法主要是优化查询速度,反而使索引性能有所下降),另外就是可以用多线程来分别对不同的内容进行索引并保存到RAMDirectory里,然后再把所有的内存索引合并到FSDirectory里,甚至可以让多台服务器分别处理内容的各个部分,然后把索引结果放到一个队列里,再有一台机器去读取索引结果队列并合并索引结果。   做这个示例主要是为了演示一下Lucene.net的功能,它可以对你指定的目录里的.txt,.htm,.html文件进行全文索引,然后对其进行查询。由于如果要索引的目录里文件特别多特别大的话,建立索引需要花费很长的过程,所以我在示例程序里使用了异步编程,以便在建立索引的时候不阻塞界面线程。


网友评论

  • 不错啊。正是自己需要的。
  • 资料是相当全了,但不知道怎么
  • 给个链接就可以了嘛,没必要都下载另存为然后打包! 详细链接见:http://home.cnblogs.com/group/topic/4683.html
  • 恩,资料是相当全了,但不知道怎么测试,如果有测试DEMO就好了,我在研究中。
  • 资料挺全的。中科院的那套中科院ICTCLAS分词工具的C#版,我手上有。不过不知道怎么上载。