uax29:用于Go的基于Unicode文本分段(UAX 29)的标记器

时间:2024-06-15 12:57:56
【文件属性】:

文件名称:uax29:用于Go的基于Unicode文本分段(UAX 29)的标记器

文件大小:293KB

文件格式:ZIP

更新时间:2024-06-15 12:57:56

unicode tokenization uax29 Go

对于Unicode版本12.0,此程序包基于(UAX 29)标记单词,句子和字素。 用法 import "github.com/clipperhouse/uax29/words" text := "It’s not “obvious” (IMHO) what comprises a word, a sentence, or a grapheme. :thumbs_up_medium-light_skin_tone::dog_face:!" reader := strings . NewReader ( text ) scanner := words . NewScanner ( reader ) // Scan returns true until error or EOF for scanner . Scan () { fmt . Printf ( "%q \n " , scanner . Text ()) } // Gotta check the error (


【文件预览】:
uax29-master
----words()
--------scanner.go(8KB)
--------seek.go(1KB)
--------scanner_test.go(7KB)
--------testdata()
--------example_test.go(423B)
--------README.md(2KB)
--------unicode_test.go(461KB)
--------trie.go(221KB)
----.gitignore(51B)
----go.mod(46B)
----doc.go(270B)
----LICENSE(1KB)
----gen.go(48B)
----go.sum(0B)
----sentences()
--------scanner.go(7KB)
--------seek.go(1KB)
--------scanner_test.go(5KB)
--------testdata()
--------example_test.go(458B)
--------README.md(2KB)
--------unicode_test.go(133KB)
--------trie.go(257KB)
----.github()
--------workflows()
----README.md(3KB)
----gen()
--------main.go(7KB)
--------triegen()
----graphemes()
--------scanner.go(4KB)
--------seek.go(548B)
--------scanner_test.go(5KB)
--------testdata()
--------example_test.go(431B)
--------README.md(2KB)
--------unicode_test.go(146KB)
--------trie.go(78KB)

网友评论