Lucene.net入门学习（结合盘古分词）（转载）

作者：释迦苦僧出处：http://www.cnblogs.com/woxpp/p/3972233.html 本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接。

Lucene简介

Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。

Lucene.net简介

Lucene.net是Lucene的.net移植版本，是一个开源的全文检索引擎开发包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎。开发人员可以基于Lucene.net实现全文检索的功能。

Lucene.net工作原理

Lucene.net提供的服务需要两部分：索引文件的写入和索引文件的读取。

1写入流程
源数据字符串经过analyzer处理，将源中需要搜索的信息加入Document的各个字段中，并把需要索引的字段起来并存储。
将索引写入存储器，存储器可以是内存或磁盘。

2读出流程
用户提供搜索关键词，经过analyzer处理。（我们下面代码采用的是盘古分词，其相关分词原理可以再它的官网上可以看到 http://pangusegment.codeplex.com/）
对处理后的关键词搜索索引找出对应的Document，用户根据需要从找到的Document中提取需要的Field。

Lucene.net安装

大家可以去官网看下：https://www.nuget.org/packages/Lucene.Net/3.0.3

Lucene.net入门学习（结合盘古分词）（转载）

盘古分词安装

盘古分词主页：http://pangusegment.codeplex.com/

下载：http://pangusegment.codeplex.com/downloads/get/144143

Lucene.net结合盘古分词使用

http://pangusegment.codeplex.com/downloads/get/144145

大家可以看到相关使用的案列

Lucene.net创建索引（结合盘古分词）

    /*code 释迦苦僧*/

    class Program

    {

        static void Main(string[] args)

        {

            Stopwatch sw = new Stopwatch();//加入时间统计

            //获取 数据列表

            PostBll bll = new PostBll();

            IList<PostInfo> posts = bll.GetAllPost();

            Console.WriteLine(posts.Count);

            //创建Lucene索引文件

            string IndexDic = @"D:\Lucene\post\";

            sw.Start();

            IndexWriter writer = new IndexWriter(FSDirectory.Open(IndexDic), new PanGuAnalyzer(), true, IndexWriter.MaxFieldLength.LIMITED);

            foreach (PostInfo item in posts)

            {

                Document doc = new Document();

                Field postid = new Field("PostId", item.PostId.ToString(), Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.NO);

                Field title = new Field("Title", item.Title.ToString(), Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.NO);

                Field postscore = new Field("PostScore", item.PostScore.ToString(), Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.NO);

                doc.Add(postid);

                doc.Add(title);

                doc.Add(postscore);

                writer.AddDocument(doc);

            }

            writer.Optimize();

            writer.Commit();

            sw.Stop();

            Console.Write("建立" + posts.Count + "索引,花费: " + sw.Elapsed);

            Console.ReadLine();

        }

    }

如代码所示：
D:\Lucene\post\ 存储Lucene.net生成的索引文件，如下图

Lucene.net入门学习（结合盘古分词）（转载）

这些索引存储文件存储了PostInfo表中 PostId，Title，PostScore 三个字段信息。

需要注意的是：使用盘古分词操作时，需要将PanGu.xml和盘古分词自带的分词文件放入项目中，如下图：

Lucene.net入门学习（结合盘古分词）（转载）

Lucene.net执行搜索（结合盘古分词）

namespace LuceneNetStudy.Search

{

    /*code 释迦苦僧*/

    public partial class MainForm : Form

    {

        private string IndexDic = @"D:\Lucene\post\";

        public MainForm()

        {

            InitializeComponent();

        }

        private void btnSearch_Click(object sender, EventArgs e)

        {

            /*开启搜索用的后台线程*/

            BackgroundWorker backWorker = new BackgroundWorker();

            backWorker.DoWork += new DoWorkEventHandler(backWorker_DoWork);

            backWorker.RunWorkerAsync(txtKey.Text.Trim());

        }

        void backWorker_DoWork(object sender, DoWorkEventArgs e)

        {

            string key = e.Argument as string;

            List<PostInfo> result = new List<PostInfo>();

            /*加入时间统计*/

            Stopwatch sw = new Stopwatch();

            sw.Start();

            /*创建 Lucene.net 搜索实例*/

            IndexSearcher search = new IndexSearcher(FSDirectory.Open(IndexDic), true);

            /*为搜索实例 加入搜索分词规则  来源 盘古分词*/

            key = GetKeyWordsSplitBySpace(key, new PanGuTokenizer());

            BooleanQuery bq = new BooleanQuery();

            if (!string.IsNullOrEmpty(key))

            {

                /*如果搜索关键字不为空  知道关键字搜索列为Title*/

                QueryParser queryParser = new MultiFieldQueryParser(Lucene.Net.Util.Version.LUCENE_30, new string[] { "Title" }, new PanGuAnalyzer());

                Query query = queryParser.Parse(key);

                bq.Add(query, Occur.MUST);

            }

            /*指定排序方式  按 PostScore 字段来排序*/

            List<SortField> sorts = new List<SortField>();

            SortField sf = new SortField("PostScore", SortField.DOUBLE, true);

            sorts.Add(sf);

            Sort sort = new Sort(sorts.ToArray());

            TopFieldDocs docs = search.Search(bq, null, search.MaxDoc, sort);

            int allCount = docs.TotalHits;

            /*获取匹配的前10条*/

            ScoreDoc[] hits = TopDocs(0, 10, docs);

            foreach (ScoreDoc sd in hits)//遍历搜索到的结果

            {

                try

                {

                    Document doc = search.Doc(sd.Doc);

                    var model = new PostInfo();

                    model.PostId = Guid.Parse(doc.Get("PostId"));

                    model.PostScore = double.Parse(doc.Get("PostScore"));

                    model.Title = doc.Get("Title");

                    result.Add(model);

                }

                catch

                {

                }

            }

            search.Close();

            search.Dispose();

            sw.Stop();

            if (result != null)

            {

                Invoke(new MethodInvoker(delegate()

                {

                    lblRunTime.Text = "花费: " + sw.Elapsed;

                    txtResult.Text = "";

                    foreach (PostInfo info in result)//遍历搜索到的结果

                    {

                        txtResult.Text += info.PostScore + "\t" + info.Title + "\r\n";

                    }

                }));

            }

        }

        public static ScoreDoc[] TopDocs(int start, int limit, TopFieldDocs docs)

        {

            int endIndex = 0;

            int hc = docs.TotalHits;

            if (hc - start > limit)

            {

                endIndex = start + limit;

            }

            else

            {

                endIndex = hc;

            }

            List<ScoreDoc> dl = new List<ScoreDoc>();

            var da = docs.ScoreDocs;

            for (int i = start; i < endIndex; i++)

            {

                dl.Add(da[i]);

            }

            return dl.ToArray();

        }

        static public string GetKeyWordsSplitBySpace(string keywords, PanGuTokenizer ktTokenizer)

        {

            StringBuilder result = new StringBuilder();

            /*执行分词操作 一个关键字可以拆分为多个次和单个字*/

            ICollection<WordInfo> words = ktTokenizer.SegmentToWordInfos(keywords);

            foreach (WordInfo word in words)

            {

                if (word == null)

                {

                    continue;

                }

                result.AppendFormat("{0}

哈哈d);

            }

            return result.ToString().Trim();

        }

    }

}313

Lucene.net入门学习（结合盘古分词）（转载）的更多相关文章

Lucene&period;net入门学习系列(2)
Lucene.net入门学习系列(2) Lucene.net入门学习系列(1)-分词 Lucene.net入门学习系列(2)-创建索引 Lucene.net入门学习系列(3)-全文检索在使用Luce ...
Lucene&period;net入门学习系列(1)
Lucene.net入门学习系列(1) Lucene.net入门学习系列(1)-分词 Lucene.net入门学习系列(2)-创建索引 Lucene.net入门学习系列(3)-全文检索这几天在公 ...
Lucene&period;net入门学习（结合盘古分词）
Lucene简介 Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整 ...
Lucene&period;net入门学习
Lucene.net入门学习(结合盘古分词) Lucene简介 Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全 ...
【转载】Lucene&period;Net入门教程及示例
本人看到这篇非常不错的Lucene.Net入门基础教程,就转载分享一下给大家来学习,希望大家在工作实践中可以用到. 一.简单的例子 //索引Private void Index(){ Index ...
lucene&period;net 3&period;0&period;3、结合盘古分词进行搜索的小例子(转)
lucene.net 3.0.3.结合盘古分词进行搜索的小例子(分页功能) 添加:2013-12-25 更新:2013-12-26 新增分页功能. 更新:2013-12-27 新增按分类查询功能, ...
Lucene&period;Net+盘古分词-&gt&semi;开发自己的搜索引擎
//封装类 using System;using System.Collections.Generic;using System.Linq;using System.Web;using Lucene. ...
lucene&period;net helper类【结合盘古分词进行搜索的小例子（分页功能）】
转自:http://blog.csdn.net/pukuimin1226/article/details/17558247 添加:2013-12-25 更新:2013-12-26 新增分页功能. ...
lucene&period;net 3&period;0&period;3、结合盘古分词进行搜索的小例子（分页功能）
转自:http://blog.csdn.net/pukuimin1226/article/details/17558247 添加:2013-12-25 更新:2013-12-26 新增分页功能. 更新 ...

随机推荐

AR初体验：宣传G20
最近Pokemon Go太火,它基于LBS(Location Based Service)+AR(Augmented Reality)的一款游戏,这股风,一定会让国内的公司纷纷效仿,你懂的.不可否定的 ...
单页web应用是什么？它又会给传统网站带来哪些好处&quest;
文章来源:<单页Web应用:JavaScript从前端到后端> 什么是单页应用? 单页应用是指在浏览器中运行的应用,它们在使用期间不会重新加载页面.像所有的应用一样,它旨在帮助用户完成任务 ...
html框架—多对话框(相同id)处理
一个网站的数据大多数都是异步刷新的,这没什么好说的,然后现在很多前后端框架,大家都知道框架很好用,不用自己写样式,只要利用框架上的语法就能做出漂亮的动态的效果来,而用框架的话大多数的动态效果都是动态生 ...
tarjan 边双连通分量对点进行分组每组点都在一个双连通分量里边
int dfn[N],low[N],id[N],s[N],p,num,t,son[N];//dfn记录dfs时间戳//low代表当前点到达的最小时间戳,id对点进行分组编号.num是时间戳//s临时存 ...
TCP/IP 笔记 - 域名解析和域名系统
由于IP地址的烦琐导致的记忆和使用困难,互联网支持使用主机名称来识别包括客户机和服务器在内的主机.同时为了使用一系列协议,主机名称通过称为"名称解析"的过程转换成对应IP地址. 互 ...
[svc]数字证书基础知识
数字证书基础原理数字证书采用PKI(Public Key Infrastructure)公开密钥基础架构技术,利用一对互相匹配的密钥进行加密和解密. 每个用户自己设定一把特定的仅为本人所知的私有密钥 ...
Android之系统启动流程
在前一篇文章"Android之看“马达”如何贯通Android系统 (从硬件设计 --> 驱动 --> HAL --> JNI --> Framework --&g ...
win10 系统变量迁移
经常要重装电脑,自己的很多配置都要重新手动配置,其中就包括系统变量系统变量在注册表中存在 win+R regedit HKEY_LOCAL_MACHINE\SYSTEM\ControlSet001\ ...
在AbpZero中hangfire后台作业的使用——开启hangfire
AbpZero框架已经集成了hangfire,但它默认是关闭的,我们可以在运行站点下的Startup.cs文件中把这行代码注释取消就行了,代码如下: //Hangfire (Enable to ...
c之指针与数组（1）
1.指针与地址一元运算符&可用于取一个对象的地址.例如:int i=1;&i就是计算机地址. 一元运算符*是间接寻址或者间接引用运算符.例如: int x=1,y:int ip*: ...