bleve-sego-tokenizer:使用sego作为分割器的bleve的中文标记器下载

【文件属性】：

文件名称：bleve-sego-tokenizer:使用sego作为分割器的bleve的中文标记器

文件大小：1.83MB

文件格式：ZIP

更新时间：2024-06-08 18:53:26

sego-tokenizer for bleve 使用了作为分词器. 为了适配 bleve 的 analysis.Tokenizer 接口, 我 fork 了, 有一些修改和修正. 借用了的测试用例. 测试过程中, 发现 sego 和 jiebago 的分词结果会有少量的差异, 主要集中在一个分词结果包含多个子分词的情况下. 比如中华人民: jieba 的分词结果是中华, 华人, 人民, sego 的分词结果是中华人民. 全部测试样本中大约有10来例. 粗略看了一下, 这大概和 sego 有关 sego 看上去已经挺久没有维护. 我会尽量排除 fork 过来的版本在使用过程中出现的 bug 非常感谢和提供了 golang 的中文分词实现. 使用方法参考: package main import ( "fmt" "log" "os" "github.com/

立即下载

【文件预览】：
bleve-sego-tokenizer-master
----.gitignore(550B)
----tokenizer.go(3KB)
----test_dict2.txt(63B)
----segmenter_test.go(557B)
----test_dict1.txt(69B)
----README.md(5KB)
----dict.txt(4.84MB)
----example()
--------main.go(4KB)
----tokenizer_test.go(114KB)
----segmenter.go(567B)

秒客网

bleve-sego-tokenizer:使用sego作为分割器的bleve的中文标记器

网友评论

相关文章