文件名称:vtext:Rust中具有Python绑定的简单NLP
文件大小:74KB
文件格式:ZIP
更新时间:2024-02-24 12:24:42
nlp information-retrieval bag-of-words tf-idf tokenization
文字 Rust中具有Python绑定的NLP 该软件包旨在提供一种高性能工具包,用于为机器学习应用程序提取文本数据。 产品特点 令牌化:Regexp令牌化器,Unicode分段+语言特定的规则 提取:雪球(在Python中比NLTK快15-20倍) 令牌计数:将令牌计数转换为稀疏矩阵以用于机器学习库。 与scikit-learn中的CountVectorizer和HashingVectorizer相似,但功能不太广泛。 Levenshtein编辑距离; Sørensen-Dice,Jaro和Jaro Winkler字符串相似之处 用法 在Python中的用法 vtext需要Python
【文件预览】:
vtext-master
----.circleci()
--------config.yml(5KB)
----evaluation()
--------README.md(401B)
--------eval_tokenization.py(3KB)
----.gitignore(532B)
----README.md(3KB)
----CHANGELOG.md(1KB)
----azure-pipelines.yml(588B)
----Cargo.toml(1KB)
----LICENSE(11KB)
----benchmarks()
--------README.md(626B)
--------bench_sentence_tokenizers.py(1KB)
--------bench_tokenizers.py(2KB)
--------bench_stemmers.py(1KB)
--------bench_vectorizers.py(3KB)
--------requirements.txt(12B)
--------bench_string_similarity.py(2KB)
----src()
--------math.rs(347B)
--------metrics()
--------errors.rs(501B)
--------tokenize_sentence()
--------lib.rs(1KB)
--------tokenize()
--------vectorize()
----doc()
--------make.bat(787B)
--------contributing.rst(666B)
--------conf.py(5KB)
--------python-api.rst(940B)
--------index.rst(926B)
--------benchmarks.rst(2KB)
--------requirements-doc.txt(33B)
--------rust-api.rst(103B)
--------Makefile(580B)
--------install.rst(405B)
----python()
--------run_docker_env.sh(104B)
--------Dockerfile(559B)
--------setup.cfg(449B)
--------README.md(944B)
--------Cargo.toml(579B)
--------src()
--------vtext()
--------requirements.txt(62B)
--------MANIFEST.in(43B)
--------pyproject.toml(216B)
--------setup.py(831B)
----ci()
--------azure()
--------requirements-build.txt(60B)