xmljava系统源码-lspider:轻网蜘蛛系统

时间:2024-06-25 17:49:03
【文件属性】:

文件名称:xmljava系统源码-lspider:轻网蜘蛛系统

文件大小:210KB

文件格式:ZIP

更新时间:2024-06-25 17:49:03

系统开源

xml java系统源码 lspider Linux下的轻量级网页抓取系统 功能特性 将整套spider系统功能浓缩到一个二进制中,部署轻便 多线程和并发网络通信,性能高,资源利用充分,单机可同时抓取数百站点并能保持cpu低占用 简易配置,指定待抓取站点列表和高质量种子链接即可自适应抓取扩散至整站,参考链接深度的广度优先遍历同时保证时新性 通过配置不同站点ip的抓取压力,全异步的压力控制和链接调度,优雅抓取,避免封禁 基于WebKit的可定制的页面渲染和链接提取,便于性能和效果之间的权衡 mysql作为链接存储介质,更高效;mongo作为网页存储介质,便于字段扩展和快速查询 天然支持分布式部署(基于站点划分),可横向扩展 安装依赖 libevent (>=2.0.22) thrift (>=0.9.2) qt (>=4.8.6) mongo-cxx-driver-legacy (>=1.0.2) log4cplus (>=1.2.0) boost (>=1.58.0) 安装方法(RHEL6) ===============================================


网友评论