用于执行Unicode标准附件#29中所述的Unicode文本分段的Go库-Golang开发

时间:2024-06-15 11:32:26
【文件属性】:

文件名称:用于执行Unicode标准附件#29中所述的Unicode文本分段的Go库-Golang开发

文件大小:469KB

文件格式:ZIP

更新时间:2024-06-15 11:32:26

Golang Natural Language Processing

segment一个执行Unicode文本分段的Go库,如Unicode标准附件#29中所述。功能目前仅支持Word Boundaries的分段。 许可证Apache许可证Ve segment如Unicode标准附件#29中所述,用于执行Unicode文本分段的Go库。目前仅支持Word Boundaries的分段。 许可证Apache许可证版本2.0用法该功能以两种方式公开:您可以将bufio.Scanner与SplitFunc的SplitWords实现一起使用。 SplitWords函数将在输入文本中标识适当的单词边界,并且扫描程序将在适当的位置返回令牌。 斯卡


【文件预览】:
segment-master
----tables_test.go(641KB)
----go.mod(47B)
----segment_words.go(752KB)
----.github()
--------workflows()
----ragel()
--------uscript.rl(5KB)
--------unicode2ragel.rb(8KB)
--------uwb.rl(86KB)
----segment_fuzz.go(817B)
----segment_test.go(7KB)
----export_test.go(415B)
----segment_fuzz_test.go(925B)
----LICENSE(11KB)
----doc.go(2KB)
----README.md(3KB)
----segment_words_prod.go(2.57MB)
----segment.go(10KB)
----maketesttables.go(5KB)
----segment_words.rl(9KB)
----segment_words_test.go(17KB)
----.gitignore(93B)

网友评论