互联网程序员都每天刷题嘛-zhihu_people:zhihu_people

时间:2021-07-07 16:24:20
【文件属性】:
文件名称:互联网程序员都每天刷题嘛-zhihu_people:zhihu_people
文件大小:176KB
文件格式:ZIP
更新时间:2021-07-07 16:24:20
系统开源 互联网程序员都每天刷题嘛 zhihu-crawler-people 一个简单的分布式知乎爬虫,抓取知乎用户个人信息。 使用该爬虫做的数据分析: 该爬虫的解析: 依赖 BeautifulSoup pymongo redis requests 安装 搭建主机数据库:MongoDB + Redis。 搭建代理池 修改 common.py 18行,配置数据库。如果你设置了权限认证,那么请修改注释部分的认证信息,并去掉注释。 # 数据库设置 redis_host = 'your_ip' # redis 主机地址 redis_port = 6379 # redis 主机端口 # redis_pwd = 'your_password' # redis 访问密码 mongo_host = 'your_ip' # mongodb 主机地址 mongo_port = 27017 # mongodb 主机端口 # mongo_user = 'your_user' # mongodb 登陆用户 # mongo_pwd = 'your_password' # mongodb 用户密码 修改 ProxyIP.py
【文件预览】:
zhihu_people-master
----ProxyIP.py(1KB)
----common.py(1KB)
----info_crawler.py(7KB)
----Crawler.py(3KB)
----screenshots()
--------知乎异常流量.png(33KB)
--------爬虫进程流程图.png(116KB)
--------账号被封.png(26KB)
----list_crawler.py(10KB)
----kill_all_info.sh(87B)
----requirements.txt(137B)
----.gitignore(6B)
----test_speed.py(3KB)
----README.md(15KB)

网友评论