spiderman:基于scrapy-redis的通用分布式爬虫框架下载

【文件属性】：

文件名称：spiderman:基于scrapy-redis的通用分布式爬虫框架

文件大小：64KB

文件格式：ZIP

更新时间：2024-04-08 07:05:07

kafka hive hbase scrapy spiderman

蜘蛛侠基于scrapy-redis的通用分布式爬虫框架目录 demo采集效果爬虫元数据集群模式独立模式附件下载 kafka实时采集监控功能自动建表自动生成爬虫代码，只需编写少量代码即可完成分布式爬虫自动存储元数据，分析统计和补爬都很方便适合多站点开发，每个爬虫独立定制，互不影响调用方便，可以根据传参自定义采集的页数以及启用的爬虫数量扩展简易，可以根据需要选择采集模式，单机Standalone（替代）或分布式集群采集数据落地方便，支持多种数据库，只需在spider中启用相关的管道关系型 MySQL的 sqlserver Oracle PostgreSQL sqlite3 非关系型基础 mongodb 弹性搜索高清文件蜂巢数据文件，例如csv 反爬处理简易，已封装各种反爬中间件随机UserAgent 定制请求头定制饼干池定制代理ip 在

立即下载

【文件预览】：
spiderman-master
----test_html.py(2KB)
----SP_JOBS()
--------job.py(4KB)
--------zhifang_job.py(2KB)
--------__init__.py(111B)
--------zhifang_job_patch.py(3KB)
----kafka_mon.py(1KB)
----scrapy.cfg(247B)
----SP()
--------pipelines()
--------spiders()
--------items()
--------__init__.py(0B)
--------settings.py(6KB)
--------scrapy_redis_extensions.py(3KB)
--------utils()
--------bloom_dupefilter.py(3KB)
--------middlewares()
----easy_meta.py(4KB)
----requirements.txt(1KB)
----.gitignore(67B)
----execute_download.py(5KB)
----api.py(4KB)
----README.md(14KB)
----easy_scrapy.py(17KB)
----download.py(7KB)

秒客网

spiderman:基于scrapy-redis的通用分布式爬虫框架

网友评论

相关文章