1、用户词典格式
用户词典格式为:
1)词语与词性用‘@@’隔开,例如: 农业@@N
2)词与词之间用半角“;”隔开
3)词性标注可以省略,例如:农业@@N,或者 农业
2、导入用户词典存在的问题:
1)用户词典第一行没有被导入到分词器中,(???未证实)(用户词典中的词并没有被完全导入)
网上流传的说法:程序加载的用户词典的词数少于用户词典中实际有的词数,整了很长时间才发现,在用户词典的定义中,代表词性标注的内容字符数不能多于7个,否则不能正常加载该词条。(写程序实践过,暂时没出现这个问题,待考究。)
2)用户词典词的优先级较高。例如用户词典中加了“万科”这个词,“千万科学家”直接被分成“千/ 万科/ 学/ 家”。