coreseek增加自定义中文分词

时间:2023-01-18 08:25:58

由于公司的项目采用的是繁体字、导致简体分词会有问题,于是百度了一下添加字典的方法,照着做确实可以,而且也不难。

下面是方法:

使用
词典的构造

mmseg -u unigram.txt

该命令执行后,将会在unigram.txt所在目录中产生一个名为unigram.txt.uni的文件,

将该文件改名为uni.lib,完成词典的构造。

需要注意的是,unigram.txt需要预先准备,并且编码格式必须为UTF-8编码。

词典文件格式:

....
河 187
x:187
造假者 1
x:1
台北队 1
x:1
湖边 1
......

其中,每条记录分两行。其中,第一行为词项,其格式为:[词条]\t[词频率]。需要注意的是,对于单个字后面跟这个字作单字成词的频率,这个频率需要在大量的预先切分好的语料库中进行统计,用户增加或删除词时,一般不需要修改这个数值;对于非单字词,词频率处必须为1。第二行为占位项,是由于LibMMSeg库的代码是从Coreseek其他的分词算法库(N-gram模型)中改造而来的,在原来的应用中,第二行为该词在各种词性下的分布频率。LibMMSeg的用户只需要简单的在第二行处填"x:1"即可。

用户可以通过修改词典文件增加自己的自定义词,以提高分词法在某一具体领域的切分精度,系统默认的词典文件在源代码目录的data/unigram.txt中。