ScrapyRedisBloomFilterBlockCluster:带有Bloom Filter的Scrapy Redis,支持redis前哨和群集

时间:2024-06-17 10:32:24
【文件属性】:

文件名称:ScrapyRedisBloomFilterBlockCluster:带有Bloom Filter的Scrapy Redis,支持redis前哨和群集

文件大小:55KB

文件格式:ZIP

更新时间:2024-06-17 10:32:24

redis bloom redis-cluster scrapy scrapy-redis

ScrapyRedisBloomFilterBlockCluster ScrapyRedisBloomFilterBlockCluster 基于 scrapy-redis + bloomfilter 算法去重,支持分配多个 Redis 内存块( Redis 1个 string 最大 512MB),并且支持 Redis 单机,Redis Sentinel 和 Redis-Cluster 集群,适用于超大型分布式 scrapy 爬虫。 本项目基于以下项目修改: 基于 python 3.7,scrapy 1.8.0,并且在单机 Redis 3.2.100,Redis Sentinel 5.0.5 以及集群 Redis Cluster 5.0.7 上测试通过。 安装 使用 pip: pip install scrapy-redis-bloomfilter-block-cluster 依赖: twi


【文件预览】:
ScrapyRedisBloomFilterBlockCluster-master
----scrapy_redis_bloomfilter_block_cluster()
--------queue.py(7KB)
--------extensions.py(4KB)
--------pipelines.py(2KB)
--------utils.py(192B)
--------dupefilter.py(10KB)
--------pop.lua(405B)
--------picklecompat.py(242B)
--------__init__.py(107B)
--------connection.py(6KB)
--------scheduler.py(8KB)
--------defaults.py(2KB)
--------bloomfilter.py(10KB)
--------spiders.py(9KB)
----LICENSE(1KB)
----setup.py(1KB)
----.gitignore(1KB)
----demo()
--------scrapy.cfg(269B)
--------CnblogsSpider()
--------MeinvSpider()
----README.md(11KB)

网友评论