文件名称:punkt:将 Punkt 句子标记器移植到 Go
文件大小:11.84MB
文件格式:ZIP
更新时间:2024-07-27 06:24:03
Go
朋克句子分词器 这段代码是 NLTK 项目([ ])实现的 Punkt 句子标记器算法的的 Go 端口。 正如 Ruby 端口所描述的那样: Punkt 是一种独立于语言的、无监督的句子边界检测方法。 它基于这样的假设:一旦确定了缩写,就可以消除确定句子边界时的大量歧义。 该算法的完整描述见以下学术论文: Kiss, Tibor 和 Strunk, Jan (2006):无监督多语言句子边界检测。 计算语言学 32:485-525。 [下载论文] NLTK 中的原始 Python 实现: 威利( )(原始 Python 端口) 史蒂文·伯德 ( )(补充) Edward Loper ( ) (重写) Joel Nothman ( ) (几乎重写) Ruby港口: 注意事项 这是我在 Go 中学习如何更好地使用 Go 语言的第一个项目。 也就是说,尽管我试图使用测
【文件预览】:
punkt-master
----presets.go(27.42MB)
----tokenizer.go(3KB)
----token.go(3KB)
----data()
--------danish.json(1001KB)
--------german.json(1.18MB)
--------spanish.json(459KB)
--------finnish.json(1.57MB)
--------turkish.json(1003KB)
--------norwegian.json(966KB)
--------portuguese.json(500KB)
--------french.json(470KB)
--------czech.json(1.07MB)
--------dutch.json(549KB)
--------swedish.json(849KB)
--------italian.json(490KB)
--------greek.json(1.7MB)
--------README(8KB)
--------slovene.json(615KB)
--------polish.json(1.51MB)
--------english.json(313KB)
--------estonian.json(1.24MB)
--------dump_pickle_json.py(731B)
----annotate.go(4KB)
----tests()
--------annotate_test.go(2KB)
--------frequency_distribution_test.go(2KB)
--------trainer_test.go(1KB)
--------word_tokenize_test.go(2KB)
--------parameters_test.go(742B)
--------token_test.go(3KB)
----frequency_distribution.go(2KB)
----LICENSE(1KB)
----makefile(196B)
----.gitignore(266B)
----punkt.go(3KB)
----trainer.go(14KB)
----parameters.go(6KB)
----README.md(3KB)