文件名称:cldr-segmentation.js:JavaScript的CLDR文本分段
文件大小:319KB
文件格式:ZIP
更新时间:2024-04-10 01:59:42
JavaScript
cldr-segmentation JavaScript的文本分段库。 这是什么? 该库在JavaScript中提供了基于CLDR的文本分段功能。文本分割是识别文本中的单词,句子和其他边界的过程。分段规则由Unicode联盟作为通用语言环境数据存储库(CLDR)的一部分发布,并免费提供给公众。 为什么不只是在空格或句号上分开? 好问题。大多数时候,这可能会很好地工作。但是,单词或句子在何处开始或结束并不总是很明显。考虑一下这句话: I like Mrs. Murphy. She's nice. 拆分只在时间会给你["I like Mrs. ", "Murphy. ", "She's nice."]这可能不是你想要的-之后的时期Mrs并不表示句子的结尾。 此外,其他语言使用的细分规则与英语不同。例如,用日语识别句子边界会有些困难,因为句子往往以\u3002 (表意句号)结尾,而不是句点。
【文件预览】:
cldr-segmentation.js-master
----.gitignore(72B)
----package.json(1KB)
----src()
--------stateMachine.js(2KB)
--------split.js(671B)
--------ruleSets()
--------customSuppressions.js(74B)
--------cursor.js(1KB)
--------nullSuppressions.js(209B)
--------metadata.js(139B)
--------categoryTable.js(564B)
--------suppressions()
--------ruleSet.js(1KB)
--------trie.js(1KB)
--------suppressions.js(2KB)
--------breakIterator.js(2KB)
--------stateTable.js(258B)
----.travis.yml(171B)
----.tool-versions(15B)
----Gruntfile.js(2KB)
----dist()
--------cldr-segmentation.js.map(264KB)
--------cldr-segmentation.js(241KB)
--------cldr-segmentation.min.js(229KB)
----demo.html(643B)
----LICENSE(1KB)
----CHANGELOG.md(1KB)
----spec()
--------conformance()
--------breakIterator.spec.js(4KB)
--------sentenceSplit.spec.js(2KB)
--------wordSplit.spec.js(563B)
--------conformance.spec.js(5KB)
----README.md(5KB)
----demo.js(429B)
----Gemfile(88B)
----Rakefile(3KB)