看上去还算是那么回事,我将利用几篇文章,和大家学习下Lucene.net创建索引,分词,检索等方面的知识。由于初学,有什么问题还望指教。
此文先来和大家了解下Lucene.net,介绍给没有接触过的新手。
Lucene:一个开源的使用Java语言编写的全文搜索引擎开发包。Lucene.net是使用在.NET平台下的搜索引擎开发工具,利用Lucene.net我们可以比较容易的搭建自己的数据检索程序。里面包含了很多API,我们可以不必很深入的了解他们是如何实现的,通过合理的使用,就可以实现想要的效果。但是Lucene.net是开源的,感兴趣的朋友可以研究下,对大家的学习会很相当的有帮助!
当然,千万不要妄想利用Lucene.net实现像Google,Baidu那样的效果,一个真正的搜索引擎可不是几个API可以搞定的,想了解搜索引擎的朋友参看:
http://www.cnblogs.com/gaoweipeng/archive/2009/09/20/1570357.html。
那么Lucene.net能为我们做什么呢?
Lucene可以对任何的数据做索引和搜索。 Lucene不管数据源是什么格式,只要它能被转化为文字的形式,就可以被Lucene所分析利用。也就是说不管是MS word, Html ,pdf还是其他什么形式的文件只要你可以从中抽取出文字形式的内容就可以被Lucene所用。你就可以用Lucene对它们进行 索引以及 搜索 。
没错,Lucene.net的核心技术就是方便的为我们创建索引,以及检索功能,当然这中间还需要分词等技术。
与传统数据库检索相比,Lucene.net具有以下特点:
更多Lucene.net资料:
Java版的可以在这里找到: http://lucene.apache.org/
dotNet版的可以在这里找到: http://incubator.apache.org/lucene.net/
园子中 Lucene.Net 2.3.1开发介绍: http://space.cnblogs.com/group/topic/4683/
Andrew Smith对Lucene.NET的介绍: http://www.codeproject.com/KB/library/IntroducingLucene.aspx
.NET3.5平台下的Linq to Lucene: http://www.codeplex.com/linqtolucene