行话:Go的分词器和词条分解器

时间:2024-02-24 12:25:35
【文件属性】:

文件名称:行话:Go的分词器和词条分解器

文件大小:161KB

文件格式:ZIP

更新时间:2024-02-24 12:25:35

nlp go data-science tokenizer lemmatizer

行话 行话是一个文本管道,专注于识别规范和同义词术语的变体。 例如,行话将react , React.js , React JS和REACTJS转换为规范的reactjs 。 安装 如果您安装了 : go install github.com/clipperhouse/jargon/cmd/jargon 如果您使用的是Mac,并且拥有 : brew install clipperhouse/tap/jargon 有关Mac,Windows和Linux二进制文件的信息,请访问。 要显示使用情况,只需键入: jargon 例: curl -s https://en.wikiped


【文件预览】:
jargon-master
----testdata()
--------wikipedia.txt(63KB)
----.gitignore(57B)
----README.md(4KB)
----.gcloudignore(689B)
----.github()
--------workflows()
----tokenizer_html_test.go(1KB)
----punct.go(219B)
----filters()
--------norm()
--------ascii()
--------synonyms()
--------sigil()
--------contractions()
--------twitter()
--------nba()
--------stopwords()
--------mapper()
--------stemmer()
--------*()
----tokenstream_test.go(2KB)
----benchmark_test.go(741B)
----go.mod(321B)
----tokenqueue()
--------queue.go(2KB)
----web()
--------main.go(2KB)
--------main_test.go(891B)
----app.yaml(26B)
----tokenizer_html.go(2KB)
----tokenizer.go(1KB)
----LICENSE.txt(1KB)
----go.sum(2KB)
----tokenstream.go(5KB)
----example_test.go(2KB)
----tokenizer_test.go(2KB)
----token.go(2KB)
----cmd()
--------jargon()

网友评论