文件名称:语义文本分割。 用于句子边界检测、复合分割等。
文件大小:32.97MB
文件格式:ZIP
更新时间:2024-07-18 12:45:23
javascript python rust machine-learning deep-learning
神经网络分裂使用神经网络拆分文本的工具。主要应用是句子边界检测,但也支持例如德语的复合拆分。特征健壮:不依赖正确的标点符号、拼写和大小写。查看指标。Small :NNSplit 使用字节级 LSTM,因此权重很小(< 4MB),并且可以为每种 unicode 可编码语言训练模型。便携:NNSplit 是用 Rust 编写的,绑定了 Rust、Python 和 Javascript(浏览器和 Node.js)。在使用部分查看如何开始使用。快速:比 Spacy 句子化快 2 倍,请参阅基准测试。多语言:NNSplit 目前有 7 种不同语言(德语、英语、法语、挪威语、瑞典语、简体中文、土耳其语)的模型。在演示中尝试它们。文档已移至 NNSplit 网站:https ://bminixhofer.github.io/nnsplit。执照NNSplit 在 MIT 许可下获得许可。
【文件预览】:
nnsplit-main
----.gitattributes(38B)
----Cargo.toml(90B)
----.github()
--------workflows()
----train()
--------evaluate.ipynb(167KB)
--------text_data.py(3KB)
--------utils.py(192B)
--------model.py(7KB)
--------requirements.txt(2KB)
--------dataset.py(2KB)
--------__init__.py(3KB)
--------train.ipynb(24KB)
--------setup.cfg(51B)
--------labeler.py(9KB)
--------evaluate.py(5KB)
--------.gitignore(51B)
----models()
--------tr()
--------de()
--------uk()
--------sv()
--------fr()
--------no()
--------en()
--------ru()
--------zh()
----benchmarks()
--------sample.json(819KB)
--------benchmark.py(2KB)
----nnsplit()
--------Cargo.toml(2KB)
--------models.csv(665B)
--------src()
--------examples()
----website()
--------public()
--------src()
--------babel.config.js(73B)
--------README.md(319B)
--------vue.config.js(404B)
--------.gitignore(244B)
--------package-lock.json(503KB)
--------package.json(1KB)
----rust-toolchain(7B)
----release.sh(400B)
----LICENSE(1023B)
----setup.cfg(44B)
----README.md(2KB)
----update_version.sh(503B)
----.gitignore(2KB)
----bindings()
--------javascript()
--------python()