pragmatic_tokenizer:将字符串拆分为标记的多语言标记器

时间:2024-06-18 08:38:10
【文件属性】:

文件名称:pragmatic_tokenizer:将字符串拆分为标记的多语言标记器

文件大小:83KB

文件格式:ZIP

更新时间:2024-06-18 08:38:10

Ruby

实用的分词器 Pragmatic Tokenizer 是一种多语言标记器,用于将字符串拆分为标记。 安装 将此行添加到您的应用程序的Gemfile中: Ruby gem install pragmatic_tokenizer Ruby on Rails 将此行添加到您的应用程序的Gemfile中: gem 'pragmatic_tokenizer' 用法 如果未指定语言,库将默认为英语。 要指定语言,请使用其两个字符的。 Pragmatic Tokenizer 将转义任何 HTML 实体。 示例用法 text = " \" I said, 'what're you? Crazy?' \" said Sandowsky. \" I can't afford to do that. \" " PragmaticTokenizer :: Tokenizer . new . to


【文件预览】:
pragmatic_tokenizer-master
----.gitignore(87B)
----README.md(11KB)
----pragmatic_tokenizer.gemspec(1KB)
----.rubocop.yml(5KB)
----Gemfile(104B)
----.rspec(31B)
----spec()
--------pragmatic_tokenizer_spec.rb(2KB)
--------languages()
--------performance_spec.rb(9KB)
--------spec_helper.rb(85B)
----LICENSE.txt(1KB)
----.travis.yml(29B)
----lib()
--------pragmatic_tokenizer()
--------pragmatic_tokenizer.rb(78B)
----.rubocop_todo.yml(4KB)
----Rakefile(113B)

网友评论