【文件属性】:
文件名称:互联网程序员都每天刷题嘛-zhihu_people:zhihu_people
文件大小:176KB
文件格式:ZIP
更新时间:2021-07-07 16:24:20
系统开源
互联网程序员都每天刷题嘛
zhihu-crawler-people
一个简单的分布式知乎爬虫,抓取知乎用户个人信息。
使用该爬虫做的数据分析:
该爬虫的解析:
依赖
BeautifulSoup
pymongo
redis
requests
安装
搭建主机数据库:MongoDB
+
Redis。
搭建代理池
修改
common.py
18行,配置数据库。如果你设置了权限认证,那么请修改注释部分的认证信息,并去掉注释。
#
数据库设置
redis_host
=
'your_ip'
#
redis
主机地址
redis_port
=
6379
#
redis
主机端口
#
redis_pwd
=
'your_password' #
redis
访问密码
mongo_host
=
'your_ip'
#
mongodb
主机地址
mongo_port
=
27017
#
mongodb
主机端口
#
mongo_user
=
'your_user'
#
mongodb
登陆用户
#
mongo_pwd
=
'your_password'
#
mongodb
用户密码
修改
ProxyIP.py
【文件预览】:
zhihu_people-master
----ProxyIP.py(1KB)
----common.py(1KB)
----info_crawler.py(7KB)
----Crawler.py(3KB)
----screenshots()
--------知乎异常流量.png(33KB)
--------爬虫进程流程图.png(116KB)
--------账号被封.png(26KB)
----list_crawler.py(10KB)
----kill_all_info.sh(87B)
----requirements.txt(137B)
----.gitignore(6B)
----test_speed.py(3KB)
----README.md(15KB)