wink-tokenizer:多语言令牌生成器,可以自动标记每个令牌的类型

时间:2024-05-22 14:04:46
【文件属性】:

文件名称:wink-tokenizer:多语言令牌生成器,可以自动标记每个令牌的类型

文件大小:130KB

文件格式:ZIP

更新时间:2024-05-22 14:04:46

multilingual german tokenizer tagging latin

眨眼代币 多语言令牌生成器,可以自动标记每个令牌的类型 使用wink-tokenizer拉丁和梵文脚本中的句子。 它的一些主要功能概述如下: 支持英语,法语,德语,印地语,梵语,马拉地语等等。 包含多种语言单词的句子的智能标记。 根据其特征自动检测和标记不同类型的令牌: 这些包括单词,标点符号,电子邮件,提及,主题标签,表情符号和表情符号等。 用户可定义的令牌类型。 高性能–以超过240万个令牌/秒的速度标记一个典型的英语句子,并以超过150万个令牌/秒的速度对包含标签,表情符号,表情符号,提及内容和电子邮件的复杂推文进行标记(以2.2 GHz Intel Core为基准)具有16GB RAM的i7机器)。 安装 使用进行安装: npm install wink-tokenizer --save 入门 // Load tokenizer. var tokenizer = r


【文件预览】:
wink-tokenizer-master
----.eslintrc.json(8KB)
----.jsdoc.json(388B)
----src()
--------eng-contractions.js(30KB)
--------wink-tokenizer.js(20KB)
----.npmignore(102B)
----CONTRIBUTING.md(6KB)
----.travis.yml(149B)
----LICENSE(1KB)
----test()
--------eng-contractions-specs.js(2KB)
--------wink-tokenizer-specs.js(25KB)
----README.md(5KB)
----runkit()
--------example.js(588B)
----docs()
--------Tokenizer.html(29KB)
--------index.html(12KB)
--------wink-tokenizer.js.html(26KB)
--------global.html(8KB)
--------styles()
--------scripts()
--------close.svg(252B)
--------menu.svg(196B)
----CODE_OF_CONDUCT.md(3KB)
----.gitignore(554B)
----package-lock.json(122KB)
----package.json(1KB)

网友评论