用爬虫抓取新浪微博粉丝

准备工具

给定几百个个人主页地址，比如类似这样：

https://weibo.com/u/1688541667?refer_flag=1005050008_&is_hot=1

抓取这些博主的粉丝数据

如图所示，我们先获取粉丝列表地址
用爬虫抓取新浪微博粉丝
然后进行翻页，能获取前5页的粉丝。每页20条数据，每个博主可以抓100个粉丝。

700个博主，我们需要抓大概7万条数据
用爬虫抓取新浪微博粉丝

这是我们需要抓取的字段：

用爬虫抓取新浪微博粉丝

模拟浏览器登录账号去抓取的，所以我们需要单独创建一个登录模块

新浪微博的登录界面:
用爬虫抓取新浪微博粉丝
流程图

这个登录模块主要是输入账号和密码，然后点击登录，使用流程图创建很简单。

我们还可以判断登录状态，包括成功和失败，登录成功，我们才会开启采集任务，登录失败，我们就报错。

整体如下：

用爬虫抓取新浪微博粉丝

一开始，我们的思路是爬取每个用户的个人主页去获取用户信息，包括性别、简介、地区等等，后来算了一下，7万个粉丝，需要抓取7万个地址，这个量太大了，后来我们改变了思路，直接从列表获取数据

用爬虫抓取新浪微博粉丝
包括用户名、性别、地区都在列表了，所以我们这个爬虫是没有详情页的。

所以在流程图中，我们使用了一个【表格数据页】

用爬虫抓取新浪微博粉丝

至于性别，页面没有直接显示男女，我们获取到性别的图标class，直接做替换

用爬虫抓取新浪微博粉丝

我们做个替换：

用爬虫抓取新浪微博粉丝

抓取的结果如下:

用爬虫抓取新浪微博粉丝