connection:连接redis最基本文件
default:默认值设置文件
dupefiler_key 保存指纹
dupefilter:替换scrapy默认的url去重器
piklecompat:序列化
pipelines:将item保存到redis中,实现item分布式保存
queue:实现3中队列,队列,栈,优先级队列,替换scrapy中队列
scheduler:替换scrapy的调度器
spider:通过redis读取start_url
utils:python3兼容性
分布式爬虫逻辑?
把scheduler放到redis中,items序列化,放到redis中,把中间状态放到redis中