bleve-sego-tokenizer:使用sego作为分割器的bleve的中文标记器

时间:2024-06-08 18:53:26
【文件属性】:

文件名称:bleve-sego-tokenizer:使用sego作为分割器的bleve的中文标记器

文件大小:1.83MB

文件格式:ZIP

更新时间:2024-06-08 18:53:26

Go

sego-tokenizer for bleve 使用了 作为分词器. 为了适配 bleve 的 analysis.Tokenizer 接口, 我 fork 了, 有一些修改和修正. 借用了 的测试用例. 测试过程中, 发现 sego 和 jiebago 的分词结果会有少量的差异, 主要集中在一个分词结果包含多个子分词的情况下. 比如 中华人民: jieba 的分词结果是 中华, 华人, 人民, sego 的分词结果是 中华 人民. 全部测试样本中大约有10来例. 粗略看了一下, 这大概和 sego 有关 sego 看上去已经挺久没有维护. 我会尽量排除 fork 过来的版本在使用过程中出现的 bug 非常感谢 和 提供了 golang 的中文分词实现. 使用方法参考: package main import ( "fmt" "log" "os" "github.com/


【文件预览】:
bleve-sego-tokenizer-master
----.gitignore(550B)
----tokenizer.go(3KB)
----test_dict2.txt(63B)
----segmenter_test.go(557B)
----test_dict1.txt(69B)
----README.md(5KB)
----dict.txt(4.84MB)
----example()
--------main.go(4KB)
----tokenizer_test.go(114KB)
----segmenter.go(567B)

网友评论