国内程序员刷题知乎-zhihu-crawler-people:知乎&&数据分析的简单分布式爬虫

时间:2024-07-21 05:57:41
【文件属性】:

文件名称:国内程序员刷题知乎-zhihu-crawler-people:知乎&&数据分析的简单分布式爬虫

文件大小:183KB

文件格式:ZIP

更新时间:2024-07-21 05:57:41

系统开源

国内程序员刷题知乎 zhihu-crawler-people 一个简单的分布式知乎爬虫,抓取知乎用户个人信息。 使用该爬虫做的数据分析: 该爬虫的解析: 依赖 BeautifulSoup pymongo redis requests 安装 搭建主机数据库:MongoDB + Redis。 搭建代理池 修改 common.py 18行,配置数据库。如果你设置了权限认证,那么请修改注释部分的认证信息,并去掉注释。 # 数据库设置 redis_host = 'your_ip' # redis 主机地址 redis_port = 6379 # redis 主机端口 # redis_pwd = 'your_password' # redis 访问密码 mongo_host = 'your_ip' # mongodb 主机地址 mongo_port = 27017 # mongodb 主机端口 # mongo_user = 'your_user' # mongodb 登陆用户 # mongo_pwd = 'your_password' # mongodb 用户密码 修改 ProxyIP.py 8行


【文件预览】:
zhihu-crawler-people-master
----test_speed.py(3KB)
----requirements.txt(137B)
----Crawler.py(3KB)
----list_crawler.py(10KB)
----LICENSE(18KB)
----README.md(15KB)
----screenshots()
--------知乎异常流量.png(33KB)
--------爬虫进程流程图.png(116KB)
--------账号被封.png(26KB)
----kill_all_info.sh(87B)
----ProxyIP.py(1KB)
----.gitignore(6B)
----info_crawler.py(7KB)
----common.py(1KB)

网友评论