prose:用于文本处理的Golang库,包括标记化,词性标记和命名实体提取

时间:2024-02-24 08:58:51
【文件属性】:

文件名称:prose:用于文本处理的Golang库,包括标记化,词性标记和命名实体提取

文件大小:11.6MB

文件格式:ZIP

更新时间:2024-02-24 08:58:51

nlp natural-language-processing prose NaturallanguageprocessingGo

散文 prose是纯Go语言中的自然语言处理库(目前仅英语)。 它支持标记化,分段,词性标记和命名实体提取。 你可以在这里找到在图书馆的表现更详细的摘要: 。 安装 $ go get github.com/jdkato/prose/v2 用法 内容 总览 package main import ( "fmt" "log" "github.com/jdkato/prose/v2" ) func main () { // Create a new document with the default configuration: doc , err := prose . NewDocument ( "Go is an open-source programming language created at Google." ) if err != nil { log . Fatal ( err ) } // Iterate over the doc's tokens: for _ , tok := r


【文件预览】:
prose-master
----go.mod(174B)
----document.go(3KB)
----tag_test.go(3KB)
----testdata()
--------treebank_tags.json(637KB)
--------golden_rules_en.json(11KB)
--------PRODUCT()
--------tokenize.json(3KB)
--------sherlock.txt(568KB)
--------treebank_words.json(12KB)
--------article.txt(4KB)
--------reddit_product.jsonl(659KB)
--------treebank_tokens.json(1.77MB)
--------treebank_sents.json(4KB)
----document_test.go(763B)
----words.go(8KB)
----go.sum(2KB)
----extract_test.go(2KB)
----model()
--------Maxent()
--------AveragedPerceptron()
----segment_test.go(15KB)
----scripts()
--------fuzzit.sh(898B)
--------update_model.py(634B)
--------treebank_words.py(543B)
--------word_punct.py(326B)
--------pipe.py(190B)
--------cover.sh(534B)
--------test_model.py(2KB)
--------requirements.txt(47B)
--------get_article.py(278B)
----extract.go(13KB)
----tokenize_test.go(10KB)
----model_test.go(534B)
----.travis.yml(225B)
----LICENSE(1KB)
----types.go(538B)
----doc.go(167B)
----README.md(10KB)
----Makefile(482B)
----model.go(3KB)
----data.go(16.82MB)
----segment.go(7KB)
----tag.go(10KB)
----appveyor.yml(359B)
----.gitignore(302B)
----utilities.go(2KB)
----tokenize.go(6KB)

网友评论