spider-roach:分布式定向抓取集群

时间:2024-05-02 03:46:52
【文件属性】:

文件名称:spider-roach:分布式定向抓取集群

文件大小:12KB

文件格式:ZIP

更新时间:2024-05-02 03:46:52

Python

声明 本人自知精力与能力有限,欢迎志同道合之士送上您宝贵的建议与Patch! 关于 一个分布式定向抓取集群的简单实现。 目前实现功能 多线程下载,线程数可配置。 无需修改代码,按照规则添加配置就可以完成页面抽取、入库。 利用Redis的list作为抓取队列,zset作为已抓取集合。 支持分布式部署多个爬虫,Redis作为核心,mysql为存储,当然redis/mysql自身拥有各自的扩展方案。 TODO List KISS: Keep it simple & stupid! Supports cookies,and authentication. Write information into files (using protobuf??). INSTALL 确认安装Python2.7及依赖库: MySQLdb: http://sourceforge.net/projects/my


【文件预览】:
spider-roach-master
----Utility.py(1KB)
----Logger.py(2KB)
----test.py(2KB)
----pipeline.py(5KB)
----downloader.py(2KB)
----settings.py(555B)
----scheduler.py(1KB)
----crawl(1KB)
----maps.cfg(7KB)
----README.md(3KB)
----base.py(6KB)

网友评论