simstring:SimString的Python实现,一种简单有效的算法,用于近似字符串匹配

时间:2024-02-24 12:31:13
【文件属性】:

文件名称:simstring:SimString的Python实现,一种简单有效的算法,用于近似字符串匹配

文件大小:811KB

文件格式:ZIP

更新时间:2024-02-24 12:31:13

python nlp nlp-library NaturallanguageprocessingPython

simstring Python实现,这是一种用于近似字符串匹配的简单高效的算法。 产品特点 使用此库,您可以从大量的字符串/文本中提取具有一定相似性的字符串/文本。 当您开发与语言处理有关的应用程序时,它将为您提供帮助。 该库支持各种相似度函数,例如余弦相似度,Jaccard相似度,并支持Word N-gram和Character N-gram作为特征。 您还可以轻松实现自己的特征提取器。 SimString具有以下功能: 快速的近似字符串检索算法。 100%精确检索。 尽管某些算法允许未命中(误报)以提高查询响应速度,但可以确保SimString通过快速查询响应实现100%正确的


【文件预览】:
simstring-master
----env.yml(131B)
----Dockerfile(244B)
----tests()
--------database()
--------test_searcher.py(867B)
--------feature_extractor()
--------measure()
----LICENSE(1KB)
----dev()
--------data()
--------benchmark_for_elasticsearch.py(2KB)
--------benchmark.py(2KB)
--------company_names.py(956B)
----docker-compose.yml(400B)
----setup.py(813B)
----.circleci()
--------config.yml(808B)
----README.md(6KB)
----simstring()
--------database()
--------feature_extractor()
--------__init__.py(0B)
--------searcher.py(3KB)
--------measure()

网友评论