文件名称:gse:进行高效的文本分割和NLP; 支持英语,中文,日语等。 语言高级分词
文件大小:12.83MB
文件格式:ZIP
更新时间:2024-02-24 08:58:49
nlp go segment hmm japanese
se 进行有效的文本分割; 支持英语,中文,日语等。 用双数组特里(Double-Array Trie)实现, 算法是基于词频加动态编程的最短路径,以及DAG和HMM算法的词分割。 支持通用,搜索引擎,完整模式,精确模式和HMM模式的多种分词模式,支持用户词典,POS标记,运行。 支持HMM剪切文本使用Viterbi算法。 文本分割速度9.2MB / s, 26.8MB / s。 HMM文本分割单线程3.2MB / s。 (2core 4threads Macbook Pro)。 捆绑: ,绑定JavaScript等,支持更多语言。 安装更新 go get -u github.com/go-ego/gse go get -u github.com/go-ego/re se 创建一个新的gse应用程序 $ re gse my-gse 重新运行 要运行我们刚刚创建的应用程序,您可以导航到应用程序文件夹并执行: $ cd my-gse && re run 利用 package main import ( "fmt" "github.com/go-ego/gse" "gi
【文件预览】:
gse-master
----segmenter_test.go(7KB)
----dictionary.go(3KB)
----circle.yml(570B)
----hmm()
--------prob_trans.go(448B)
--------hmm_seg_test.go(1KB)
--------hmm_seg.go(3KB)
--------pos()
--------viterbi.go(3KB)
--------bm25()
--------util()
--------idf()
--------prob_emit.go(1.09MB)
----stop.go(2KB)
----go.mod(115B)
----test_utils.go(1KB)
----.github()
--------issue_template.md(803B)
--------CONTRIBUTING.md(23B)
--------pull_request_template.md(919B)
--------workflows()
----README_zh.md(5KB)
----testdata()
--------test_dict.txt(449B)
--------test_dict1.txt(76B)
--------stop.txt(6B)
--------test_dict3.txt(24B)
--------test_dict2.txt(210B)
--------bailuyuan.txt(1.32MB)
--------CHANGELOG.md(486B)
----go.sum(330B)
----gse_test.go(7KB)
----token.go(3KB)
----crf()
--------crf.go(601B)
----gse_bm_test.go(1KB)
----examples()
--------hmm()
--------main.go(6KB)
--------dict()
--------en()
--------jp()
----benchmark()
--------benchmark.go(3KB)
--------goroutines()
----CONTRIBUTING.md(4KB)
----.travis.yml(311B)
----LICENSE(11KB)
----seg_utils.go(5KB)
----seg.go(1KB)
----dag.go(6KB)
----README.md(6KB)
----gonn()
--------cnn()
--------rnn()
----data()
--------idf.txt(5.91MB)
--------main.go(761B)
--------dict()
--------README.md(46B)
----token_test.go(871B)
----.gitignore(752B)
----server()
--------server.go(2KB)
--------static()
----trim.go(6KB)
----segmenter.go(7KB)
----gse.go(4KB)
----tf()
--------tf.go(600B)
--------nlp()
----dict_util.go(9KB)