文件名称:tokenizer:使用Go语言编写的NLP令牌生成器
文件大小:1.12MB
文件格式:ZIP
更新时间:2024-06-18 04:51:22
nlp deep-learning tokenizer golang-tokenizer Go
分词器 概述 tokenizer是纯 Go 包,用于促进在 Go 中应用自然语言处理 (NLP) 模型训练/测试和推理。 它深受流行的启发并基于它。 tokenizer是一个雄心勃勃的目标(与和一起)的一部分,为Gophers 带来更多AI/深度学习工具,以便他们能够坚持使用他们喜欢的语言并在生产中构建更快的软件。 特征 tokenizer内置于子包中的模块中。 归一化器 预分词器 分词器 后期处理 它实现了各种标记器模型: 词级模型 词条模型 字节对编码 (BPE) 它既可以用于从头训练新模型,也可以用于对现有模型进行微调。 请参阅详细信息。 基本示例 此标记器包兼容从 Huggingface 加载预训练模型。 其中一些可以使用pretrained子包加载。 import ( "fmt" "log" "github.com/sugarme/tokenizer/pr
【文件预览】:
tokenizer-master
----.gitignore(75B)
----go.mod(343B)
----tokenizer.go(27KB)
----bpe_test.go(6KB)
----added-vocabulary.go(16KB)
----model()
--------wordlevel()
--------bpe()
--------wordpiece()
--------common.go(68B)
----.travis.yml(399B)
----LICENSE(11KB)
----normalizer()
--------normalized.go(43KB)
--------pattern_test.go(5KB)
--------unicode.go(1KB)
--------default.go(2KB)
--------contraction.csv(2KB)
--------pattern.go(6KB)
--------strip.go(603B)
--------bert.go(5KB)
--------normalizer.go(1KB)
--------normalized_test.go(29KB)
----pretrained()
--------gpt2.go(2KB)
--------model()
--------roberta.go(3KB)
--------bert.go(3KB)
----CHANGELOG.md(2KB)
----go.sum(3KB)
----util()
--------iterator.go(2KB)
--------error.go(1KB)
--------file.go(2KB)
--------util.go(5KB)
--------slice()
--------rune-reader.go(1KB)
----pretokenizer()
--------delimiter.go(31B)
--------bert_test.go(3KB)
--------bytelevel_test.go(7KB)
--------whitespace.go(30B)
--------metaspace.go(31B)
--------bert.go(2KB)
--------bytelevel.go(9KB)
----example_test.go(1KB)
----README.md(3KB)
----processor()
--------roberta.go(7KB)
--------bert.go(4KB)
--------bytelevel.go(765B)
----util.go(4KB)
----decoder()
--------bpe.go(662B)
--------wordpiece.go(1KB)
----example()
--------truncation()
--------pretrained()
--------decode()
--------bpe()
--------basic()
----coverage.out(4KB)
----encoding_test.go(5KB)
----pretokenizer.go(8KB)
----encoding.go(15KB)
----added-vocabulary_test.go(6KB)