【文件属性】:
文件名称:ZhihuUserSpider:基于Scrapy框架的知乎用户爬虫
文件大小:54KB
文件格式:ZIP
更新时间:2021-05-08 15:38:03
python scrapy Python
ZhihuUserSpider
自动爬取知乎用户的Scrapy爬虫:
采用scrapy-redis分布式爬虫框架
采用代理池避免IP被封禁而导致爬取失败的问题
代理池实现采用「」配置修改方式请自行参考
环境要求
Python 3.6+
Redis
Mongodb
pymongo
Scrapy
scrapy_redis
requests
environs
Flask
attrs
retrying
aiohttp
loguru
pyquery
supervisor
redis
分布式搭建(可选)
修改scrapy.cfg
url = http://URL:PORT/ # 服务器URL:Scrapyd端口
修改settings.py
REDIS_URL = "redis://URL:PORT" # 服务器URL:Redis端口
修改起点用户
settings.py
START_USER = XX
【文件预览】:
ZhihuUserSpider-master
----README.md(1KB)
----zhihuuser()
--------project.egg-info()
--------scrapy.cfg(262B)
--------build()
--------setup.py(256B)
--------zhihuuser()
----ProxyPool()
--------Dockerfile(163B)
--------.gitignore(37B)
--------README.md(10KB)
--------proxypool()
--------.github()
--------supervisord.conf(312B)
--------docker-compose.yml(421B)
--------examples()
--------LICENSE(1KB)
--------.dockerignore(2KB)
--------deployment.yml(2KB)
--------requirements.txt(151B)
--------ingress.yml(562B)
--------run.py(394B)