如何在mmseg3添加词库

时间:2022-05-20 07:04:38
 

一、了解几个文件

ll /usr/local/mmseg/etc/
mmseg.ini 
uni.lib   编译后的词库,给sphinx 用的
unigram.txt   原词库给人看的, 在这里面人工添加自己的词库

二、添加词条,格式如下

vim /usr/local/mmseg/etc/unigram.txt

邯郸王队  1    //[词条]\t[词频率]
x:1    //占位项(x:1即可)
工信处  1
x:1
女干事  1
x:1

注意:这里一定要是\t分隔,把词库文件下载下来,然后查看所有字符就知道了,直接vi的话不能copy,要手工输入Tab键

三、重新编译

编译词库:

如何在mmseg3添加词库

/usr/local/mmseg/bin/mmseg -u unigram.txt         生成这个 unigram.txt.uni 文件,把这个文件重命名为uni.lib,给sphinx 用的即可
mv unigram.txt.uni uni.lib
chmod +x /usr/local/mmseg/etc/uni.lib

// 可以不重启,保险起见还是重启下吧
/usr/local/coreseek/bin/searchd --stop 关掉searchd
/usr/local/coreseek/bin/searchd 启动searchd
/usr/local/coreseek/bin/indexer --all --rotate 生成索引 检查是否生效
/usr/local/coreseek/bin/search 工信处女干事邯郸王队
words:
1. '工信处': 0 documents, 0 hits
2. '女干事': 0 documents, 0 hits
3. '邯郸王队': 0 documents, 0 hits
说明词库生效了