文件名称:ZhihuUserSpider:基于Scrapy框架的知乎用户爬虫
文件大小:54KB
文件格式:ZIP
更新时间:2024-05-28 09:24:43
python scrapy Python
ZhihuUserSpider 自动爬取知乎用户的Scrapy爬虫: 采用scrapy-redis分布式爬虫框架 采用代理池避免IP被封禁而导致爬取失败的问题 代理池实现采用「」配置修改方式请自行参考 环境要求 Python 3.6+ Redis Mongodb pymongo Scrapy scrapy_redis requests environs Flask attrs retrying aiohttp loguru pyquery supervisor redis 分布式搭建(可选) 修改scrapy.cfg url = http://URL:PORT/ # 服务器URL:Scrapyd端口 修改settings.py REDIS_URL = "redis://URL:PORT" # 服务器URL:Redis端口 修改起点用户 settings.py START_USER = XX
【文件预览】:
ZhihuUserSpider-master
----README.md(1KB)
----zhihuuser()
--------project.egg-info()
--------scrapy.cfg(262B)
--------build()
--------setup.py(256B)
--------zhihuuser()
----ProxyPool()
--------Dockerfile(163B)
--------.gitignore(37B)
--------README.md(10KB)
--------proxypool()
--------.github()
--------supervisord.conf(312B)
--------docker-compose.yml(421B)
--------examples()
--------LICENSE(1KB)
--------.dockerignore(2KB)
--------deployment.yml(2KB)
--------requirements.txt(151B)
--------ingress.yml(562B)
--------run.py(394B)