关注了一个公众号 —— 书单来了,再也不用担心闹书荒了!【棒到飞起!】
但关注的时间长了也发现了一个问题,有时候想找一本曾经在某个书单中推荐过的书,就该翻箱倒柜了,即使有历史消息,也有书单狗整理的书单库,但每次查找还是很费时间。鉴于最近在接触python,于是起了一个念头:把微信公众号的消息记录爬下来,把我关心的那些数据存到数据库,查找浏览不就更方便了么。这两天闲暇时间折腾一番,终于搞定。源码:https://github.com/ttshen1029/crawling_wx_history 下面正式开始。
【思路】:
其实思路很简单,通过抓包工具获取访问的地址和header信息,用python模拟访问拿到消息记录,通过筛选留下书籍推荐消息,并通过正文链接继续爬取正文内容,对页面进行分析并存储有用信息。继续往下拉是通过ajax获取json格式的数据的,这个对数据的处理就更方便了。数据都存在数据库之后查看起来就很方便了,暂时就懒得做展示页面了。效果如下图,虽然粗糙了点,但初步完成了我的目标:
怕自己忘记,有几个点记录一下:
1、fiddler设置
– Connections
– HTTPS : 微信访问涉及https协议,所以需要配置一下
2、手机安装HTTPS证书(不需要捕获HTTPS,则忽略此步)
a.首先确定Fiddler所在电脑的IP地址:例:192.168.1.xx
b.用手机打开浏览器,访问http://192.168.1.xx:8888,点”FiddlerRoot certificate” 然后安装证书。
3、在同一个局域网中,手机端无线局域网HTTP代理设置,服务器:上述IP地址,端口8888
4、在手机端访问公众号历史消息,即可在获取到抓包信息