spiderTaobao:蜘蛛淘宝推荐

时间:2024-07-01 05:20:41
【文件属性】:

文件名称:spiderTaobao:蜘蛛淘宝推荐

文件大小:13.14MB

文件格式:ZIP

更新时间:2024-07-01 05:20:41

HTML

分布式定向抓取集群 一个完整的抓取数据流: 1:用户提供种子URL 2:种子URL进入linkbase中新URL队列中 3:调度模块选取url进入到抓取模块的待抓取队列中 4:抓取模块读取站点的配置文件,按照执行的频率进行抓取 5:抓取的结果返回到pipeline接口中,并完成连接的抽取 6:新发现的连接在linkbase里面进行dedup,并push到linkbase的新URL模块里面 7:调度模块选取url进入抓取模块的待抓取队列,goto 4 8:end 目前实现功能 多线程下载,线程数可配置。 无需修改代码,按照规则添加配置就可以完成页面抽取、入库。 利用Redis的list作为抓取队列,zset作为已抓取集合。 支持分布式部署多个爬虫,Redis作为核心,mysql为存储,当然redis/mysql自身拥有各自的扩展方案。 INSTALL 确认安装Python2.7及依赖库: M


网友评论