spiderman:基于scrapy-redis的通用分布式爬虫框架

时间:2024-04-08 07:05:07
【文件属性】:

文件名称:spiderman:基于scrapy-redis的通用分布式爬虫框架

文件大小:64KB

文件格式:ZIP

更新时间:2024-04-08 07:05:07

kafka hive hbase scrapy spiderman

蜘蛛侠 基于scrapy-redis的通用分布式爬虫框架 目录 demo采集效果 爬虫元数据 集群模式 独立模式 附件下载 kafka实时采集监控 功能 自动建表 自动生成爬虫代码,只需编写少量代码即可完成分布式爬虫 自动存储元数据,分析统计和补爬都很方便 适合多站点开发,每个爬虫独立定制,互不影响 调用方便,可以根据传参自定义采集的页数以及启用的爬虫数量 扩展简易,可以根据需要选择采集模式,单机Standalone(替代)或分布式集群 采集数据落地方便,支持多种数据库,只需在spider中启用相关的管道 关系型 MySQL的 sqlserver Oracle PostgreSQL sqlite3 非关系型 基础 mongodb 弹性搜索 高清文件 蜂巢 数据文件,例如csv 反爬处理简易,已封装各种反爬中间件 随机UserAgent 定制请求头 定制饼干池 定制代理ip 在


【文件预览】:
spiderman-master
----test_html.py(2KB)
----SP_JOBS()
--------job.py(4KB)
--------zhifang_job.py(2KB)
--------__init__.py(111B)
--------zhifang_job_patch.py(3KB)
----kafka_mon.py(1KB)
----scrapy.cfg(247B)
----SP()
--------pipelines()
--------spiders()
--------items()
--------__init__.py(0B)
--------settings.py(6KB)
--------scrapy_redis_extensions.py(3KB)
--------utils()
--------bloom_dupefilter.py(3KB)
--------middlewares()
----easy_meta.py(4KB)
----requirements.txt(1KB)
----.gitignore(67B)
----execute_download.py(5KB)
----api.py(4KB)
----README.md(14KB)
----easy_scrapy.py(17KB)
----download.py(7KB)

网友评论