Search-Engine-Project:通用爬网数据集上的信息检索引擎下载

【文件属性】：

文件名称：Search-Engine-Project:通用爬网数据集上的信息检索引擎

文件大小：6KB

文件格式：ZIP

更新时间：2024-06-02 00:57:47

Python

网页搜寻引擎我的网络搜索引擎项目的所有工作。 crawl.py-在抓取的网络图上实现的pagerank，广度优先和广度限制搜索 parsedata.py-读取公共爬网数据集（WET格式）并为每个输入文件输出临时索引文件，还创建全局页面表文件 mergesort.sh-对磁盘上的临时索引进行排序，并合并到磁盘上的全局排序文件中，并分块成每个2M行的文件 makeindex.py-读取合并的块并创建最终的词典和索引文件 queryprocess.py-查询处理器在生成的索引文件（词典，页面表，索引）上运行

立即下载

【文件预览】：
Search-Engine-Project-master
----crawl.py(6KB)
----README.md(636B)
----mergesort.sh(344B)
----parsedata.py(2KB)
----queryprocess.py(3KB)
----makeindex.py(1KB)

秒客网

Search-Engine-Project:通用爬网数据集上的信息检索引擎

网友评论

相关文章