clairvoyant:保守的蜘蛛

时间:2024-05-31 05:43:39
【文件属性】:

文件名称:clairvoyant:保守的蜘蛛

文件大小:12KB

文件格式:ZIP

更新时间:2024-05-31 05:43:39

Scala

千里眼 保守的蜘蛛。 这里的保守一词代表: 链接将仅从指定的文档区域收集,例如:一些“ div”或“表”,基于HTML解析。 仅使用白名单来引导爬网路径,蜘蛛不会走到其他地方,严格限制搜索边界。 简单易用,找到并键入java -jar clairvoyant-assembly-1.0.jar以查看帮助信息,编写json ,然后继续。 蜘蛛格式 开始:开始的URL 并发:最大并发线程数 延迟:下一次抓取操作之前的等待时间(以毫秒为单位) 超时:连接超时 过滤器:过滤器TUPLE(a valid regex for matching URLs, a JQuery-style selector for designating an area in HTML page) store:提供本地目录以存储已爬网HTML页面 作者 (c)2013


【文件预览】:
clairvoyant-master
----project()
--------Build.scala(441B)
--------plugins.sbt(129B)
----src()
--------main()
----LICENSE(11KB)
----build.sbt(494B)
----README.md(1KB)
----.gitignore(197B)

网友评论