文件名称:带有 Python 绑定的 Rust 中的简单 NLP
文件大小:74KB
文件格式:ZIP
更新时间:2024-07-18 12:43:03
nlp information-retrieval bag-of-words tf-idf tokenization
虚拟文本Rust 中的 NLP 与 Python 绑定该软件包旨在提供一个高性能工具包,用于为机器学习应用程序摄取文本数据。特征标记化:Regexp 标记器、Unicode 分段 + 语言特定规则Stemming:Snowball(在 Python 中比 NLTK 快 15-20 倍)标记计数:将标记计数转换为稀疏矩阵以用于机器学习库。类似于 scikit-learn 中的CountVectorizer和HashingVectorizer ,但功能不那么广泛。Levenshtein 编辑距离;Sørensen-Dice、Jaro、Jaro Winkler 字符串的相似性用法在 Python 中的使用vtext 需要 Python 3.6+ 并且可以安装,pip install vtext下面是一个简单的标记化示例,>>>fromvtext .tokenizeimportVTextTokenizer>>>VTextTokenizer ("en" ).tokenize ("Flights can't depart after 2:00 pm." ) ["Flights" ,"ca" ,"n
【文件预览】:
vtext-main
----Cargo.toml(1KB)
----ci()
--------requirements-build.txt(60B)
--------azure()
----benchmarks()
--------bench_string_similarity.py(2KB)
--------bench_sentence_tokenizers.py(1KB)
--------requirements.txt(12B)
--------bench_vectorizers.py(3KB)
--------bench_stemmers.py(1KB)
--------README.md(626B)
--------bench_tokenizers.py(2KB)
----src()
--------tokenize_sentence()
--------vectorize()
--------metrics()
--------tokenize()
--------errors.rs(501B)
--------lib.rs(1KB)
--------math.rs(347B)
----evaluation()
--------eval_tokenization.py(3KB)
--------README.md(401B)
----.circleci()
--------config.yml(5KB)
----doc()
--------make.bat(787B)
--------contributing.rst(666B)
--------install.rst(405B)
--------rust-api.rst(103B)
--------conf.py(5KB)
--------python-api.rst(940B)
--------index.rst(926B)
--------Makefile(580B)
--------benchmarks.rst(2KB)
--------requirements-doc.txt(33B)
----LICENSE(11KB)
----README.md(3KB)
----azure-pipelines.yml(588B)
----.gitignore(532B)
----python()
--------MANIFEST.in(43B)
--------Cargo.toml(579B)
--------src()
--------Dockerfile(559B)
--------requirements.txt(62B)
--------run_docker_env.sh(104B)
--------setup.cfg(449B)
--------setup.py(831B)
--------README.md(944B)
--------vtext()
--------pyproject.toml(216B)
----CHANGELOG.md(1KB)