kagome:以纯Go语言编写的自包含的日本形态分析仪

时间:2024-03-18 01:43:52
【文件属性】:

文件名称:kagome:以纯Go语言编写的自包含的日本形态分析仪

文件大小:11.1MB

文件格式:ZIP

更新时间:2024-03-18 01:43:52

japanese tokenizer segmentation korean japanese-language

v2 Kagome是用纯golang编写的开源日本形态分析仪。 字典/统计模型(例如MeCab-IPADIC,UniDic(unidic-mecab)等)可以嵌入二进制文件中。 对改进。 词典保存在单独的存储库中,并且只有所需的词典才嵌入二进制文件中。 整理并添加了几个API。 辞典 字典 来源 包裹 MeCab IPADIC mecab-ipadic-2.7.0-20070801 UniDIC unidic-mecab-2.1.2_src 实验功能 字典 来源 包裹 mecab-ipadic-NEologd 麦卡布-ipadic-neologd 韩国MeCab mecab-ko-dic-2.1.1-20180720 细分模式进行搜索 Kagome具有诸如搜索细分模式。 正常:常规细分 搜索:使用启发式方法进行有助于搜索的其他细分 扩展:类似于搜索模式,但也包含字


【文件预览】:
kagome-2
----.golangci.yml(432B)
----go.mod(183B)
----main.go(3KB)
----.github()
--------FUNDING.yml(64B)
--------dependabot.yml(503B)
--------workflows()
----testdata()
--------ipa.dict(11.15MB)
----go.sum(742B)
----filter()
--------sentence_splitter_test.go(8KB)
--------filter_test.go(3KB)
--------filter.go(700B)
--------word.go(1KB)
--------doc.go(66B)
--------feature_test.go(2KB)
--------pos_test.go(6KB)
--------feature.go(2KB)
--------sentence_splitter.go(3KB)
--------pos.go(1KB)
--------word_test.go(4KB)
----Dockerfile(1KB)
----LICENSE(1KB)
----Procfile(32B)
----README.md(7KB)
----sample()
--------userdict.txt(516B)
----.goreleaser.yml(820B)
----app.json(419B)
----cmd()
--------lattice()
--------tokenize()
--------server()
----tokenizer()
--------lattice()
--------token.go(5KB)
--------tokenizer_test.go(12KB)
--------tokenizer_option_test.go(5KB)
--------tokenizer.go(4KB)
--------doc.go(85B)
--------token_test.go(13KB)
--------tokenizer_option.go(695B)

网友评论