文件名称:WikiSearchMachine:Python 中的*转储搜索引擎
文件大小:185KB
文件格式:ZIP
更新时间:2024-07-13 03:47:44
Python
维基搜索机 Python 中的*转储搜索引擎 为 IIIT-H 2015 年Spring信息检索和提取课程编写 概括 Wiki Parser 使用python 的SAX 解析器来解析Wiki 标记的标签。 Parser.py 将被执行以进行解析和索引。 Tokenizer 和 Stemmer (PorterStemmer) 来自 ntlk,必须安装。 标题、文本、信息框、类别是大小写折叠、标记化、词干化和索引的。 搜索查询可以是常规词,也可以是字段查询,如 t:lord b:rings 。 Searcher.py 是主要的搜索文件 run_index.sh 和 run.sh 分别包含 Parser.py 和 Searcher.py 执行命令 给定的问题 给定的问题是使用*数据设计和开发可扩展且高效的搜索引擎。 要求: ~50 GB *数据(下载的压缩文件为 ~11GB)
【文件预览】:
WikiSearchMachine-master
----.gitignore(5B)
----install.sh(92B)
----src()
--------QueryHandler.py(2KB)
--------Indexer.py(14KB)
--------WikiSAXHandler.py(11KB)
--------stopwords.txt(3KB)
--------TokenStemmer.py(2KB)
--------Parser.py(3KB)
--------StopWords.py(784B)
--------Searcher.py(11KB)
----testQueryEvaluation.txt(120B)
----README.md(5KB)
----run.sh(47B)
----Index()
--------sampleXML()
----run.bat(52B)
----testQuery.txt(16B)
----sampleXML.xml(889KB)
----testQuery2.txt(11B)
----run_indexer.bat(69B)
----sampleOne.xml(6KB)
----run_indexer.sh(66B)
----install.bat(32B)
----testQueryOld.txt(50B)