文件名称:nnsplit:语义文本分割。 用于句子边界检测、复合分割等
文件大小:32.97MB
文件格式:ZIP
更新时间:2024-08-24 11:41:32
javascript python rust machine-learning deep-learning
神经网络分裂 使用神经网络拆分文本的工具。 主要应用是句子边界检测,但也支持例如德语的复合拆分。 特征 健壮:不依赖正确的标点符号、拼写和大小写。 查看。 Small :NNSplit 使用字节级 LSTM,因此权重很小(< 4MB),并且可以为每种 unicode 可编码语言训练模型。 便携:NNSplit 是用 Rust 编写的,绑定了 Rust、Python 和 Javascript(浏览器和 Node.js)。 在部分查看如何开始。 快速:比 Spacy 句子化快 2 倍,请参阅。 多语言:NNSplit 目前有 9 种不同语言(德语、英语、法语、挪威语、瑞典语、简体中文、土耳其语、俄语和乌克兰语)的模型。 在尝试它们。 文档已移至 NNSplit 网站: ://bminixhofer.github.io/nnsplit。 执照 NNSplit 在 MIT 许可下获得
【文件预览】:
nnsplit-main
----release.sh(400B)
----models()
--------zh()
--------de()
--------en()
--------fr()
--------ru()
--------tr()
--------no()
--------sv()
--------uk()
----rust-toolchain(7B)
----train()
--------utils.py(192B)
--------dataset.py(2KB)
--------text_data.py(3KB)
--------evaluate.py(5KB)
--------__init__.py(3KB)
--------setup.cfg(51B)
--------evaluate.ipynb(167KB)
--------requirements.txt(2KB)
--------train.ipynb(24KB)
--------model.py(7KB)
--------labeler.py(9KB)
--------.gitignore(51B)
----.github()
--------workflows()
----update_version.sh(503B)
----bindings()
--------python()
--------javascript()
----website()
--------vue.config.js(404B)
--------package.json(1KB)
--------package-lock.json(503KB)
--------src()
--------.gitignore(244B)
--------public()
--------README.md(319B)
--------babel.config.js(73B)
----LICENSE(1023B)
----benchmarks()
--------benchmark.py(2KB)
--------sample.json(819KB)
----Cargo.toml(90B)
----setup.cfg(44B)
----nnsplit()
--------src()
--------Cargo.toml(2KB)
--------examples()
--------models.csv(665B)
----.gitignore(2KB)
----README.md(2KB)
----.gitattributes(38B)