文件名称:Search-Engine-Project:通用爬网数据集上的信息检索引擎
文件大小:6KB
文件格式:ZIP
更新时间:2024-06-02 00:57:47
Python
网页搜寻引擎 我的网络搜索引擎项目的所有工作。 crawl.py-在抓取的网络图上实现的pagerank,广度优先和广度限制搜索 parsedata.py-读取公共爬网数据集(WET格式)并为每个输入文件输出临时索引文件,还创建全局页面表文件 mergesort.sh-对磁盘上的临时索引进行排序,并合并到磁盘上的全局排序文件中,并分块成每个2M行的文件 makeindex.py-读取合并的块并创建最终的词典和索引文件 queryprocess.py-查询处理器在生成的索引文件(词典,页面表,索引)上运行
【文件预览】:
Search-Engine-Project-master
----crawl.py(6KB)
----README.md(636B)
----mergesort.sh(344B)
----parsedata.py(2KB)
----queryprocess.py(3KB)
----makeindex.py(1KB)