TinySegmenter.jl:TinySegmenter的Julia版本,紧凑的日语令牌生成器

时间:2024-02-25 08:45:50
【文件属性】:

文件名称:TinySegmenter.jl:TinySegmenter的Julia版本,紧凑的日语令牌生成器

文件大小:209KB

文件格式:ZIP

更新时间:2024-02-25 08:45:50

nlp julia tinysegmenter TheJuliaLanguageJulia

TinySegmenter TinySegmenter.jl是TinySegmenter的Julia版本, 是一种非常紧凑的日语令牌生成器,最初由Taku Kudo先生用JavaScript编写。 用法 using TinySegmenter join ( tokenize ( "私の名前は中野です" ), " | " ) # "私 | の | 名前 | は | 中野 | です" tokenize的返回值是字符串输入的子字符串数组,给出了令牌在文本中的位置。 (子字符串由SubString Julia类型表示。) 基准测试 以下是使用不同语言对大(243kB)日语文本进行标记的TinySe


【文件预览】:
TinySegmenter.jl-master
----.travis.yml(402B)
----benchmark()
--------tiny_segmenter-0.2.js(20KB)
--------benchmark.jl(177B)
--------test_tinysegmenter.py(1KB)
--------benchmark.py(546B)
--------Gemfile(63B)
--------Gemfile.lock(156B)
--------requirements.txt(55B)
--------benchmark.js(360B)
--------README.md(929B)
--------download.sh(70B)
--------benchmark.rb(257B)
--------benchmark.sh(335B)
----Project.toml(201B)
----test()
--------timemachineu8j.txt(243KB)
--------runtests.jl(732B)
--------timemachineu8j.tokenized.txt(400KB)
----appveyor.yml(1KB)
----src()
--------TinySegmenter.jl(28KB)
----LICENSE.md(2KB)
----.gitignore(104B)
----README.md(2KB)

网友评论