文件名称:simple-search-engine:使用python 3的简单搜索引擎
文件大小:4.36MB
文件格式:ZIP
更新时间:2024-05-31 18:44:59
search-engine python3 vector-space-model Python
使用python 3的简单搜索引擎 这个小型项目将使用Vector Space Model实现一个简单的搜索引擎。 数据将从越南每日新闻如被抓取 ,, 和。 工具 如果未安装,请安装和 。 使用pip安装以下软件包: (用于发出HTTP请求)。 (越南NLP工具包)。 (用于解析HTML和XML)。 $ pip install requests underthesea beautifulsoup4 (可选)安装pytest来运行单元测试: $ pip install pytest $ cd /path/to/project $ pytest 安装并将该项目克隆到本地计算机中: $ git clone https://github.com/vancanhuit/simple-search-engine.git $ cd simple-search-engine 注意:如果
【文件预览】:
simple-search-engine-master
----search.py(2KB)
----db()
--------visited_urls.db(326KB)
--------index.db(12.38MB)
--------urls.db(320KB)
--------lengths.db(25KB)
----vietnamese-stopwords-dash.txt(20KB)
----setup.cfg(21B)
----index.py(3KB)
----.gitignore(60B)
----README.md(3KB)
----utils()
--------helper.py(784B)
--------test()
--------textprocessing.py(1KB)
--------__init__.py(0B)
----.editorconfig(146B)
----crawlers()
--------common.py(723B)
--------test()
--------vnexpress()
--------thanhnien()
--------__init__.py(0B)
--------laodong()
--------vietnamnet()
----.vscode()
--------settings.json(129B)