【文件属性】:
文件名称:clairvoyant:保守的蜘蛛
文件大小:12KB
文件格式:ZIP
更新时间:2021-05-11 11:56:59
Scala
千里眼
保守的蜘蛛。
这里的保守一词代表:
链接将仅从指定的文档区域收集,例如:一些“ div”或“表”,基于HTML解析。
仅使用白名单来引导爬网路径,蜘蛛不会走到其他地方,严格限制搜索边界。
简单易用,找到并键入java -jar clairvoyant-assembly-1.0.jar以查看帮助信息,编写json ,然后继续。
蜘蛛格式
开始:开始的URL
并发:最大并发线程数
延迟:下一次抓取操作之前的等待时间(以毫秒为单位)
超时:连接超时
过滤器:过滤器TUPLE(a valid regex for matching URLs, a JQuery-style selector for designating an area in HTML page)
store:提供本地目录以存储已爬网HTML页面
作者
(c)2013
【文件预览】:
clairvoyant-master
----project()
--------Build.scala(441B)
--------plugins.sbt(129B)
----src()
--------main()
----LICENSE(11KB)
----build.sbt(494B)
----README.md(1KB)
----.gitignore(197B)