Coreseek中文搜索引擎

时间:2022-06-29 08:22:00

测试环境:centos5.5-6.5 32位与64位


具体操作:

一、安装编译工具

yum install make gcc g++ gcc-c++ libtool autoconf automake imake mysql-devel libxml2-devel expat-devel

二 、安装CoreSeek

1、下载CoreSeek

下载地址:http://www.coreseek.cn/uploads/csft/3.2/coreseek-3.2.14.tar.gz

上传coreseek-3.2.14.tar.gz到/home/soft目录

2、安装mmseg

cd /home/soft

tar zxvf coreseek-3.2.14.tar.gz  #解压

cd coreseek-3.2.14

cd mmseg-3.2.14

./bootstrap    #输出的warning信息可以忽略,如果出现error则需要解决

./configure --prefix=/usr/local/mmseg3  #配置

make  #编译

make install  #安装

3、安装CoreSeek

cd /usr/local/src

cd coreseek-3.2.14

cd csft-3.2.14

sh buildconf.sh    #输出的warning信息可以忽略,如果出现error则需要解决

./configure --prefix=/usr/local/coreseek  --without-unixodbc --with-mmseg --with-mmseg-includes=/usr/local/mmseg3/include/mmseg/ --with-mmseg-libs=/usr/local/mmseg3/lib/ --with-mysql  #配置

make  #编译

make install  #安装

4. 建立mysql索引

vim /etc/mysql.conf

#MySQL数据源配置,详情请查看:http://www.coreseek.cn/products-install/mysql/
#请先将var/test/documents.sql导入数据库,并配置好以下的MySQL用户密码数据库


#源定义
source mysql
{
type = mysql


sql_host = 192.168.1.180
sql_user = root
sql_pass = 1
sql_db = btbbs
sql_port = 3306
sql_query_pre = SET NAMES utf8


sql_query = SELECT tid, fid, dateline, subject,author,authorid FROM pre_forum_thread
#sql_query第一列id需为整数
#title、content作为字符串/文本字段,被全文索引
sql_attr_uint = fid #从SQL读取到的值必须为整数
sql_attr_timestamp = dateline #从SQL读取到的值必须为整数,作为时间属性


sql_query_info_pre = SET NAMES utf8 #命令行查询时,设置正确的字符集
sql_query_info = SELECT tid, fid, dateline, subject,author,authorid FROM pre_forum_thread WHERE tid=$id #命令行查询时,从数据库读取原始数据信息
}


#index定义
index mysql
{
source = mysql #对应的source名称
path = /home/data/mysql #请修改为实际使用的绝对路径,要事先创建好目录
docinfo = extern
mlock = 0
morphology = none
min_word_len = 1
html_strip = 0


#中文分词配置,详情请查看:http://www.coreseek.cn/products-install/coreseek_mmseg/
charset_dictpath = /usr/local/mmseg3/etc/ #BSD、Linux环境下设置,/符号结尾
#charset_dictpath = etc/ #Windows环境下设置,/符号结尾,最好给出绝对路径,例如:C:/usr/local/coreseek/etc/...
charset_type = zh_cn.utf-8
}


#全局index定义
indexer
{
mem_limit = 128M
}


#searchd服务定义
searchd
{
listen = 9312
read_timeout = 5
max_children = 30
max_matches = 1000
seamless_rotate = 0
preopen_indexes = 0
unlink_old = 1
pid_file = /tmp/searchd_mysql.pid #请修改为实际使用的绝对路径,例如:/usr/local/coreseek/var/...
log = /tmp/searchd_mysql.log #请修改为实际使用的绝对路径,例如:/usr/local/coreseek/var/...
query_log = /tmp/query_mysql.log #请修改为实际使用的绝对路径,例如:/usr/local/coreseek/var/...
}

########################################################


/usr/local/coreseek/bin/searchd -c /etc/mysql.conf   ###启动搜索引擎

/usr/local/coreseek/bin/indexer -c /etc/mysql.conf  --all  --rotate   ###--rotate参数可以在不停searchd的情况下索引,不然的话会错误提示:

/usr/local/coreseek/bin/seach -c /etc/my.conf 世界   ###测试索引服务