文件名称:manifest-crawler:一个简单的网络清单爬虫
文件大小:5KB
文件格式:ZIP
更新时间:2024-06-23 08:59:49
JavaScript
网络清单爬虫 一个简单的网络清单爬虫。 安装 克隆或分叉这个 repo。 。 用法 初始化数据库 $ gulp init 您可以随时通过将浏览器指向http://localhost:5984/_utils/database.html?crawler/_design/urls/_view/urls来检查数据库。 开始爬行 $ node ./bin/crawl 这个项目的意义何在? 主要网站(如果不是全部)的网络清单列表可以以多种方式使用。 以下是一些建议的应用程序: 创建浏览器插件以在搜索引擎的 SERP 中显示安装按钮。 研究开发人员如何使用清单(热门领域、趋势、常见错误...) 用于查询清单文件内容(名称、图标...)的简单搜索引擎 集成到操作系统中(例如,在链接上长按时显示 pin 选项,无需访问/加载页面...) 主要兴趣在于节省带宽(非常适合移动设备!)和研究目的。
【文件预览】:
manifest-crawler-master
----.gitignore(19B)
----README.md(1KB)
----bin()
--------crawl(101B)
----package.json(561B)
----config()
--------db.json(59B)
----lib()
--------crawl.js(3KB)
----gulpfile.js(3KB)