文件名称:doubanReaderCrawl:Scrapy编写的豆瓣阅读爬虫
文件大小:50KB
文件格式:ZIP
更新时间:2024-05-28 19:14:15
Python
doubanReaderCrawl Scrapy编写的豆瓣阅读爬虫 使用Mysql存储数据(Redis也可以用来任性) Scrapy初始化时加载自定义的扩展。主要是查询数据库获取已经爬取的数据,保存在内存中用于后续去重 Scrapy 筛选出未爬取页面,进行递归爬取 Scrapy 在Items中去重,使用pyv8引擎运行js解析豆瓣加密数据 将解析到的数据保存在数据库中
【文件预览】:
doubanReaderCrawl-master
----douban()
--------items.pyc(496B)
--------pipelines.pyc(7KB)
--------pipelines.py(5KB)
--------spiders()
--------__init__.pyc(130B)
--------init.py(1KB)
--------items.py(434B)
--------__init__.py(0B)
--------settings.py(3KB)
--------settings.pyc(865B)
--------init.pyc(2KB)
----scrapy.cfg(256B)
----img()
--------full()
----items.json(0B)
----douban.zip(7KB)
----README.md(442B)