lucene索引日期和数字

1.用途。

索引数字的场景主要有两种：一是把它们当作字符串一样处理，比如“要是搁以前，术士能暴击10000多，有木有！”中的"10000"，它和其它的词没什么区别，你可以把它仅仅想成一个字符串；另一种场景则是某个域只索引数字，且可以搜索数字的范围等，比如设计了某个Field存储邮件的大小，现在要搜索大小在3M－10M的邮件。

对于第一种情况，你要做的仅仅是选一个不会对数字进行分词的分析器。这种分析器很多，比如之前我们用过的WhitespaceAnalyzer和StandardAnalyzer。当然WhitespaceAnalyzer分析器可能仅仅对英语之类的语言还有点用处。对于第二种情况，你不需要为这些专门设计用来存储数字的域进行分词，指定成Field.Index.NOT_ANALYZED就可以了。不过你必须清楚的是，Lucene内部处理的仍然只是String类型！即"10"是排在"2"前面的！若是想支持范围搜索，你需要为数字增加前置0, 即需要索引"02",这样"02"便排在"10"前面了！

doc.add(new NumericField("attachs",Field.Store.YES,true).setIntValue(attachs[i]));   
doc.add(new NumericField("date",Field.Store.YES,true).setLongValue(dates[i].getTime()));

2. 索引数字的场景主要有两种：一是把它们当作字符串一样处理，比如“要是搁以前，术士能暴击10000多，有木有！”中的"10000"，它和其它的词没什么区别，你可以把它仅仅想成一个字符串；另一种场景则是某个域只索引数字，且可以搜索数字的范围等，比如设计了某个Field存储邮件的大小，现在要搜索大小在3M－10M的邮件。

3。日期类型的使用场景可谓多之又多：邮件的寄出、收到日期；文件的创建日期、最后修改日期；HTTP响应中的最后修改日期等等。总之，绝大多数情况下，你会有处理日期的遭遇！Don't worry! Lucene为我们装备了一个处理日期的利器：DateTools. 通过它，我们可以便捷的把Date型转换成String型

//转自：BuN_Ny
//http://bun-ny.iteye.com/blog/1075632
Document doc = new Document();
doc.add(new Field("indexDate",
                DateTools.dateToString(new Date(),  DateTools.Resolution.DAY),
                Field.Store.YES,
                Field.Index.NOT_ANALYZED));

DateTools 可以把日期和时间转换成 YYYYMMDDhhmmss 的格式，并根据指定的resolution去除相应后缀。比如你指定了Resolution.DAY，2012年12月21日就会被转换成20121221，时分秒部分会被去除掉。这么一来，就很容易发现，即便是按字符串进行排序、比较，也能得到和日期相同的效果。字符串"20121221"是大于"20121121"的，而其对应的日期也是如此。采用这种方式处理日期是不是很简单？参数resolution允许你截取对你的应用有意义的日期部分，精确度从Resolution.MILLISECOND(毫秒)到Resolution.YEAR(年)，但是值得注意的是，更高的精度就需要付出更大的代价！

提醒你一下，如果你的应用中需要搜索一个YYYYMMDD范围内的数据，而在展示的时候又希望把时间部分(hhhmmss)也带上，你可以尝试创建两个域，一个索引到Resolution.DAY范围，另一个仅仅设置Store.

秒客网

lucene索引日期和数字

相关文章