文件名称:linyiSearcher:基于python3搭建了一个简单的搜索引擎
文件大小:7.03MB
文件格式:ZIP
更新时间:2024-05-21 01:23:59
JavaScript
为了完成我的信息检索选修课大作业,写下了这个简单的小项目。 这里是一个python3 实现的简易的搜索引擎 我把它取名叫linyiSearcher 所需要的python依赖包在requirements.txt中 可以使用 pip install -r requirements.txt 一次性安装全部 一共分成3部分完成 1_spider.py 是一个爬虫, 爬取搜索引擎的语料库 2_clean_data_and_make_index 是对爬下来的数据 进行一些清晰工作,并且将数据存入数据库,建立索引 这里使用了 sqlite数据库,为了方便数据和项目一同携带 3_searcher.py 简易的web后端, 实现了 1 在网页输入搜索关键字, 在后端接收到关键字 2 对关键字进行分词 3 在索引中查找和关键字有关的文档 4 按照余弦相似度 对文档进行排序 5 把相近的文档展示出来 自己的知
【文件预览】:
linyiSearcher-master
----.ipynb_checkpoints()
--------2_clean_data_make_index-checkpoint.ipynb(85KB)
----3_searcher.py(3KB)
----COMMON.py(740B)
----requirements.txt(978B)
----.idea()
--------libraries()
--------misc.xml(297B)
--------dataSources.local.xml(454B)
--------workspace.xml(28KB)
--------dataSources.xml(595B)
--------linyiSearcher.iml(585B)
--------.name(13B)
--------modules.xml(312B)
--------vcs.xml(180B)
----2_clean_data_make_index.ipynb(97KB)
----__pycache__()
--------COMMON.cpython-37.pyc(755B)
----data()
--------front()
--------database.db(9.41MB)
--------cleaned_database.csv(4.28MB)
--------base_url_list.txt(29KB)
--------database.csv(2.72MB)
----1_spider.py(3KB)
----readme.md(3KB)