1、登陆公众号后台(也可以用selenium模拟登陆获取cookies)
登陆后复制粘贴cookies,此时cookies是字符串形式,我们需要转成字典形式
2、获取token请求参数
3、爬取接口在分享图文这里
该接口可输入一些查询字符串,返回公众号文章数据,我们利用的就是该接口
接口url和post请求参数
4、向接口发送请求
我们看到该接口的响应是json数据
向接口发送请求
5、获取数据
6、爬虫监控,出现异常实时向微信发送消息
例如:我在获取到token的时候向微信发送报告
7、抓取数据存到MySQL(标题,地址,内容)
说明:
1、模拟登陆也可以用selenium进行,然后获取cookies
2、公众号文章内容抓取仍存在缺陷,数据存在不完整性,仍需继续改进
本人经验有限,不足之处欢迎指正