文件名称:skrapa:使用CSS选择器和基于HTTP的简单API抓取任何网站
文件大小:33KB
文件格式:ZIP
更新时间:2024-06-13 11:02:09
JavaScript
斯克拉帕 使用CSS选择器和基于HTTP的简单API抓取任何网站 Skrapa允许您轻松设置公开API的服务器,该API可用于提取(也称为抓取)网站中包含的信息。 依靠Node.js和几个Node.js库(尤其是jsdom),一切皆有可能。 设计 使用CSS选择要抓取HTML元素,因为我们都知道。 使用Node.js是因为它具有jsdom,这是W3C DOM的javascript实现,我们可以在其中加载任何给定的url,向其中注入经过验证的javascript库(例如jQuery),然后使用该javascript库选择HTML标签。 Node.js事件驱动的模型也不是很合适,因为我们将等待页面URL加载。 通过将其全部包装在公开简单的基于HTTP的API的Web服务器中使其与语言无关,该Web服务器接受一个JSON请求,该请求完全定义了应删除的内容,即,服务器未以任何方式对此进行预配
【文件预览】:
skrapa-master
----package.json(200B)
----skrapa.js(3KB)
----LICENSE(1KB)
----jquery.min.js(82KB)
----README.md(4KB)
----Procfile(19B)