文件名称:WeiboSpider:这是由scrapy建造的新浪微博蜘蛛[微博爬虫持续维护]
文件大小:5.23MB
文件格式:ZIP
更新时间:2024-02-23 00:13:33
python docker redis docker-compose scrapy
中文说明| 微博蜘蛛 持续维护的新浪微博爬虫 :rocket: :rocket: :rocket: 项目说明 版本说明 该项目分为2个分支,连续不同的需要 分支 特色 抓取量 单账号,单IP,单机器 十万级 账号池,IP池,Docker分布式 数亿级(理论无上限) 支持爬虫 用户信息抓取 用户微博抓取 用户社交关系抓取(粉丝/关注) 微博评论抓取 基于关键字和时间段(粒度到小时)的微博抓取 微博转发抓取 初步说明 项目基于weibo.cn站点抓取,抓取的分区非常丰富。具体请移步: 如何使用 拉取项目&&安装依赖 本项目Python版本为Python3.6 git clone git@github.com:nghuyong/WeiboSpider.git --depth 1 --no-single-branch cd WeiboSpider pip install -r requirements.txt 除此之外,还需要安装mongodb。 替换Cookie 访问 登陆账号,打开浏览器的开发者模式,再次刷新 复制weibo.cn这个数据包,network中的cookie值 将wei
【文件预览】:
WeiboSpider-master
----README.md(4KB)
----.github()
--------data_stracture.md(2KB)
--------images()
----LICENSE(1KB)
----weibospider()
--------spiders()
--------items.py(2KB)
--------pipelines.py(1KB)
--------middlewares.py(545B)
--------settings.py(1010B)
--------run_spider.py(1009B)
----requirements.txt(42B)
----README_EN.md(4KB)