文件名称:castroom:播客搜索引擎
文件大小:404KB
文件格式:ZIP
更新时间:2024-06-18 23:12:40
heroku kubernetes search-engine elasticsearch crawler
概述 Castroom 是一个播客搜索引擎。 它主要是为了学习如何使用 Kubernetes 制作分布式网络爬虫。 它能够在几小时内收集数十万个播客,并且可以通过一个简单的命令轻松扩展更多。 笔记 由于这是一个教育项目,它不再爬行以防止高成本,但搜索引擎仍然使用从 2020 年 1 月开始收集的数据。 这是使用默认的 Elasticsearch 索引,因为学习索引不是该项目的目标 - 因此,它存在无法搜索特殊字符等问题:) 有时第一次搜索需要一些时间来响应,但之后它应该很快响应 项目结构 发现 掌握 协调所有crawler作业 维护本地缓存(使用LevelDB)以防止多次抓取同一个URL 从crawler节点接收数据并推送两个队列 crawler节点在爬取网站后将所有数据发送到该节点 完成后将数据发送到 ElasticSearch 由 Google Kubernetes Engin
【文件预览】:
castroom-master
----web()
--------public()
--------.firebaserc(50B)
--------src()
--------firebase.json(133B)
--------README.md(143B)
--------.gitignore(321B)
--------package-lock.json(665KB)
--------package.json(909B)
----README.md(2KB)
----api()
--------.eslintrc(446B)
--------src()
--------.babelrc(180B)
--------Dockerfile(669B)
--------README.md(329B)
--------.gitignore(36B)
--------package-lock.json(199KB)
--------package.json(1018B)
----discovery()
--------master()
--------README.md(95B)
--------crawler()
--------.gitignore(44B)