文件名称:crawlergo使用chrome headless模式进行URL收集的浏览器爬虫
文件大小:11.29MB
文件格式:ZIP
更新时间:2022-01-20 13:03:43
爬虫 chrome 前端
crawlergo是一个使用chrome headless模式进行URL收集的浏览器爬虫。它对整个网页的关键位置与DOM渲染阶段进行HOOK,自动进行表单填充并提交,配合智能的JS事件触发,尽可能的收集网站暴露出的入口。内置URL去重模块,过滤掉了大量伪静态URL,对于大型网站仍保持较快的解析与抓取速度,最后得到高质量的请求结果集合。 crawlergo 目前支持以下特性: 原生浏览器环境,协程池调度任务 表单智能填充、自动化提交 完整DOM事件收集,自动化触发 智能URL去重,去掉大部分的重复请求 全面分析收集,包括javascript文件内容、页面注释、robots.txt文件和常见路径Fuzz 支持Host绑定,自动添加Referer 支持请求代理,支持爬虫结果主动推送
【文件预览】:
crawlergo
----crawlergo-master.zip(1.48MB)
----read.txt(976B)
----crawlergo.png(1.39MB)
----crawlergo_linux_amd64.zip(3.49MB)
----crawlergo_windows_amd64.zip(3.66MB)
----crawlergo-0.4.2.zip(1.47MB)