aqi:aqi天气信息爬虫、清洗-scrapy+scrapy-redis+selenium+pandas+matplotlib

时间:2024-05-22 14:24:23
【文件属性】:

文件名称:aqi:aqi天气信息爬虫、清洗-scrapy+scrapy-redis+selenium+pandas+matplotlib

文件大小:2.45MB

文件格式:ZIP

更新时间:2024-05-22 14:24:23

Python

利用scrapy+scrapy-redis+selenium爬取aqi天气网全国所有城市的天气信息近50W条 scrapy主要用来做并发,非selenium渲染页面下的请求和存储io操作 redis可以做增量(城市链接不做指纹)或分布式(继承scrapyredis爬虫类),本次只做断点续爬(利用redis保存url指纹——集合、请求队列——有序集合) selenium做month和day页面的渲染,这两个页面做了JS加密,selenium渲染完美解决。下载中间件重写process_request方法写入selenium操作,配合PhantomJS(此网页渲染对比chrome要快),取得数据重新封装response返回,引擎交给spider做解析。 数据保存为json格式,利用数据分析三件套:numpy、pandas、matplotlib进行数据清洗、展示。 先来一张全家福,看下七月初全国只


【文件预览】:
aqi-master
----.gitattributes(33B)
----aqi.json(20.38MB)
----images()
--------广深空气质量对比.png(18KB)
--------7月1号全国主要城市空气质量.png(125KB)
--------6月份深圳AQI指数走势.png(58KB)
----datamining()
--------aqi天气分析.ipynb(106KB)
----scrapy.cfg(250B)
----README.md(2KB)
----.gitignore(1KB)
----AQI()
--------settings.py(4KB)
--------pipelines.py(719B)
--------middlewares.py(2KB)
--------__init__.py(0B)
--------items.py(505B)
--------spiders()

网友评论