Gecco网络爬虫-其他

时间:2024-07-02 06:49:03
【文件属性】:

文件名称:Gecco网络爬虫-其他

文件大小:239KB

文件格式:ZIP

更新时间:2024-07-02 06:49:03

Gecco 网络爬虫

Gecco 是一款用 java 语言开发的轻量化的易用的网络爬虫。Gecco 整合了 jsoup、httpclient、fastjson、spring、htmlunit、redission 等优秀框架,让您只需要配置一些 jquery 风格的选择器就能很快的写出一个爬虫。Gecco 框架有优秀的可扩展性,框架基于开闭原则进行设计,对修改关闭、对扩展开放。同时 Gecco 基于十分开放的 MIT 开源协议,无论你是使用者还是希望共同完善 Gecco 的开发者,欢迎 pull request。 主要特征: 简单易用,使用 jquery 风格的选择器抽取元素 支持爬取规则的动态配置和加载 支持页面中的异步 ajax 请求 支持页面中的 javascript 变量抽取 利用 Redis 实现分布式抓取,参考gecco-redis 支持结合 Spring 开发业务逻辑,参考gecco-spring 支持 htmlunit 扩展,参考gecco-htmlunit 支持插件扩展机制 支持下载时 UserAgent 随机选取 支持下载代理服务器随机选取


网友评论