scrapy-zhihu-user:知乎用户爬虫,使用scrapy_redis,scrapyd,gerapy等

时间:2024-06-05 13:24:51
【文件属性】:

文件名称:scrapy-zhihu-user:知乎用户爬虫,使用scrapy_redis,scrapyd,gerapy等

文件大小:15KB

文件格式:ZIP

更新时间:2024-06-05 13:24:51

scrapy scrapyd gerapy Python

scrapy-zhihu-user 介绍 毕业设计练习项目,在Python3环境下,使用scrapy借助scrapyd,scrapy_redis,gerapy等实现分布式爬取知乎用户信息,然后将信息存储在mongodb中。 在本地Ubuntu16.04和阿里云Ubuntu14.04测试通过。 使用的库&&反爬 整体框架为scrapy,官网和使用方法见. 分布式和存储去重使用scrapy_redis. 部署使用和,scrapyd安装和使用办法查看,gerapy是免去命令行操作远程部署和查看,是崔庆才大大的作品,本项目也是基于他的视频来做的,gerapy介绍和使用方法在这里. 防反爬措施1:动态修改useragent(使用fake_useragent库),安装和使用看这里 防反爬措施2:使用IPProxyPool辅助爬取的免费代理,借助random动态更换IP(可使用率极低,推荐收费代理)。安


【文件预览】:
scrapy-zhihu-user-master
----zhihuuser()
--------settings.py(4KB)
--------pipelines.py(1KB)
--------middlewares.py(4KB)
--------__init__.py(0B)
--------items.py(3KB)
--------__pycache__()
--------spiders()
----scrapy.cfg(203B)
----README.md(3KB)

网友评论