文件名称:Python-基于scrapyredis的分布式爬虫爬取JD图书当当图书和Amazon图书
文件大小:2.04MB
文件格式:ZIP
更新时间:2022-08-30 01:27:17
Python开发-Web爬虫
采用scrapy-redis爬去京东图书,当当图书和Amazon图书,采用分布式爬虫爬取数据,实现爬虫的暂停和开始,断点再续,URL去重,数据存储等,属于轻量级爬虫
【文件预览】:
book_spider-master
----README.md(800B)
----dangbook.txt(5.18MB)
----book()
--------spiders()
--------items.py(283B)
--------pipelines.py(872B)
--------middlewares.py(2KB)
--------settings.py(1KB)
--------__init__.py(0B)
--------requirements.txt(0B)
----main.py(237B)
----amazonbook.txt(28KB)
----jdbook.txt(2.71MB)
----scrapy.cfg(252B)
----.idea()
--------misc.xml(315B)
--------modules.xml(260B)
--------book.iml(453B)