Solr 4.x定时、实时增量索引 - 修改、删除和新增索引

时间:2021-12-11 22:10:11

  开始之前,可以参考上篇博文增量索引-数据导入并索引:

http://josh-persistence.iteye.com/admin/blogs/2017059

 

          Solr增量索引配置

 

一、开始增量索引前的准备工作。

1、认识data-config.xml中相关属性

       <!--  transformer 格式转化:HTMLStripTransforme表示 索引中将忽略HTML标签   ---> 

       <!--  query:  查询数据库表符合记录数据   ---> 
       <!--  deltaQuery:增量索引   查询主键ID    --->    注意这个query只返回ID字段 
       <!--  deltaImportQuery:增量索引   查询导入的数据  ---> 
       <!--  deletedPkQuery:增量索引  删除主键ID查询  ---> 注意这个只返回ID字段 

 最主要的是我们要知道这样一个事实: last_index_time是DataImportHandler的一个默认字段,(可查看conf目录下的dataimporter.properties文件)

我们可以在任何SQL中引用,该字段用于表明上次做full import或者是delta import(增量导入)的最后一次时间。

 

2、数据库配置注意事项

1)、如果只涉及添加与修改业务,那么数据库里只需添加一个类型为timpstamp,默认值为当前系统时间的字段 :CURRENT_TIMESTAMP(mysql) 

 

2)、如果还涉及删除业务,那么数据里就需额外再多添加一个字段isdelete,int类型的用0,1来标识,此条记录是否被删除,当然也可以用其他字段标识,ture或false都可以 

 

 3、dataimporter.properties / {corename}_dataimporter.properties

在C:\solr-tomcat\solr\item\conf中查看是否存在文件dataimporter.properties,如果没有,则新建该文件。

这个配置文件很重要,它是用来记录索引的最新一次修改时间的,通过该配置文件可以找出新增的、修改的或者删除的记录。相关实例:

 

在data-config中添加如下配置信息。


  1. <dataConfig>      
  2.    <!--- 此段话配置的是一个MySQL的数据源,(数据源也可以配置在solrconfig.xml中)  --->  <dataSource name="activityDB" type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost/test" user="swang6" password="swang6"/>    
  3.        <document>            
  4.           <entity pk="ID"  dataSource="activityDB" name="myentity"  
  5.             query="select * from myentity WHERE isdelete=0"    
  6.          deltaQuery="select ID  from myentity where my_date >'${dih.last_index_time}'"    
  7.             deletedPkQuery="select ID from myentity where isdelete=1"  
  8.             deltaImportQuery="select * from myentity where ID='${dih.delta.id}">    
  9.             
  10.           <!--  ID指定大写的,与上面语句中的对应起来---->         
  11.           <field column="ID" name="id"/>    
  12.           <field column="name" name="name"/>    
  13.           <field column="address" name="address"/>    
  14.           <field column="age" name="age"/>    
  15.           <field column="my_date" name="my_date"/>    
  16.           <field column="isdelete" name="isdelete"/>    
  17.   
  18.         </entity>  
  19.    </document>  
  20. </dataConfig>  


  1. <!-- pk="ID" 必须,因为其中的增量索引查询主键ID时需要  -->    
  2.              
  3.            <!--  dataSource="acitvityDB" 这个引用名字是引用上面数据源的名字 -->    
  4.              
  5.            <!--  name="myentity" 存在多个实体时,这个名字必须唯一 -->    
  6.              
  7.            <!--  query:用于全量导入而非增量导入  
  8.            query="select * from myentity WHERE isdelete=0    
  9.            query查询是指查询出表里所有的符合条件的数据,因为笔者测试的有删除业务,所以    
  10.            where后面有一个限定条件isdelete=0,意思为查询未被删除的数据      
  11.            -->   
  12.   
  13.           <!--  deltaQuery : 用于增量导入且只返回ID  
  14.              deltaQuery="select ID  from myentity where my_date >  
  15.                  '${dih.last_index_time}'"    
  16.              deltaQuery的意思是,查询出所有经过修改的记录的ID    
  17.              可能是修改操作,添加操作,删除操作产生的     
  18.           -->    
  19.   
  20.          <!--  deletedPkQuery : 用于增量导入且只返回ID  
  21.           deletedPkQuery="select ID from myentity where isdelete=1"      
  22.           此操作只查询那些数据库里伪删除的数据的ID(即isdelete标识为1的数据)    
  23.           solr通过它来删除索引里面对应的数据   
  24.          -->   
  25.             
  26.          <!--  deltaImportQuery: 增量导入起作用,可以返回多个字段的值,一般情况下,都是返回所有字段的列  
  27.        deltaImportQuery="select * from myentity where ID='${dih.delta.ID}'"  
  28.       deltaImportQuery查询是获取以上两步的ID,然后把其全部数据获取,根据获取的数据    
  29.        对索引库进行更新操作,可能是删除,添加,修改          
  30.       -->  

注:如果有必要,则可以在schema.xml中添加一个timestamp的field

<field name="timestamp" type="date" indexed="true" stored="true" default="NOW" />

 

 

做了以上配置后,可以设置linux的cron job或者Spring 的TaskSchuduler或者Cron Job后,可以定时发url:

http://localhost:8983/solr/dataimport?command=delta-import去做增量索引。更多关于Solr做增量索引的说明文档:http://wiki.apache.org/solr/DataImportHandler

 

当然也可以用Solr自带的Scheduler来做增量索引:

http://wiki.apache.org/solr/DataImportHandler#Scheduling