python3 + fiddler爬取微信公众号消息记录

关注了一个公众号 —— 书单来了，再也不用担心闹书荒了！【棒到飞起！】
但关注的时间长了也发现了一个问题，有时候想找一本曾经在某个书单中推荐过的书，就该翻箱倒柜了，即使有历史消息，也有书单狗整理的书单库，但每次查找还是很费时间。鉴于最近在接触python，于是起了一个念头：把微信公众号的消息记录爬下来，把我关心的那些数据存到数据库，查找浏览不就更方便了么。这两天闲暇时间折腾一番，终于搞定。源码：https://github.com/ttshen1029/crawling_wx_history 下面正式开始。

【思路】：
其实思路很简单，通过抓包工具获取访问的地址和header信息，用python模拟访问拿到消息记录，通过筛选留下书籍推荐消息，并通过正文链接继续爬取正文内容，对页面进行分析并存储有用信息。继续往下拉是通过ajax获取json格式的数据的，这个对数据的处理就更方便了。数据都存在数据库之后查看起来就很方便了，暂时就懒得做展示页面了。效果如下图，虽然粗糙了点，但初步完成了我的目标：
python3 + fiddler爬取微信公众号消息记录

怕自己忘记，有几个点记录一下：
1、fiddler设置
– Connections
python3 + fiddler爬取微信公众号消息记录
– HTTPS : 微信访问涉及https协议，所以需要配置一下

2、手机安装HTTPS证书(不需要捕获HTTPS，则忽略此步)
a.首先确定Fiddler所在电脑的IP地址：例:192.168.1.xx
b.用手机打开浏览器，访问http://192.168.1.xx:8888，点”FiddlerRoot certificate” 然后安装证书。
3、在同一个局域网中，手机端无线局域网HTTP代理设置，服务器：上述IP地址，端口8888
4、在手机端访问公众号历史消息，即可在获取到抓包信息
python3 + fiddler爬取微信公众号消息记录

秒客网

python3 + fiddler爬取微信公众号消息记录

相关文章