文件名称:Vector-Space-Retrieval-Model-COL764
文件大小:45.67MB
文件格式:ZIP
更新时间:2024-04-10 22:38:29
Python
向量空间检索(VSM)模型 已实施此向量空间检索模型,以评估TREC的小型基准文档集合上的算法,该模型已由NLTK / StanfordNLP进行了预处理。小规模数据集还包含TREC主题(即查询)的一部分及其对这些文档的判断(即qrels)。 这三个代码(invidx.py,printdict.py和vecsearch.py)都使用以下基本的python库/包-os,string,math,pickle和xml.etree.ElementTree。 用法 程序将按以下顺序执行-invidx.py-> vecsearch.py。 prindict.py文件以人类可读的格式打印倒排索引字典。 invidx.py => python invidx.py =>提供第1个输入作为文档收集文件夹的路径(例如:-data / TaggedTrainingAP /)=>提供第2个输入作为索引文件