rank_bm25:BM25算法变体的集合

时间:2024-02-21 10:27:17
【文件属性】:

文件名称:rank_bm25:BM25算法变体的集合

文件大小:12KB

文件格式:ZIP

更新时间:2024-02-21 10:27:17

information-retrieval algorithm ranking bm25 AlgorithmPython

Rank-BM25:两行搜索引擎 一组算法,用于查询一组文档并返回与查询最相关的文档。 您可能已经猜到,这些算法的最常见用例是创建搜索引擎。 到目前为止,已实现的算法是: 霍加api BM25 BM25L BM25 + BM25-Adpt BM25T 这些算法均取自,它对每种方法进行了很好的概述,并对它们进行了基准测试。 一个不错的选择是,他们比较了不同类型的预处理,例如词干提取与禁止词干提取,是否停用停用词等。如果您是该主题的新手,那就请读一下。 安装 安装此软件包的最简单方法是通过pip ,使用 pip install rank_bm25 如果要确保获得最新版本,可以使用以下方法直接从github安装: pip install git+ssh://git@github.com/dorianbrown/rank_bm25.git 用法 在此示例中,我们将使用BM25Okapi算法,但其他算法的使用方式几乎相同。 诱人的 首先要做的是创建BM25类的实例,该实例读取文本语料库并对其进行一些索引: from rank_bm25 import BM25Okapi co


【文件预览】:
rank_bm25-master
----.github()
--------workflows()
----rank_bm25.py(9KB)
----.travis.yml(2KB)
----LICENSE(11KB)
----setup.py(821B)
----README.md(3KB)
----tests()
--------test_loading.py(814B)
----.gitignore(1KB)

网友评论

  • 根本不能用