裁判文书网python爬虫分析-2-19

时间:2024-03-16 11:18:59

最近发现文书网又双叒更新了反爬策略.微微蛋疼
裁判文书网python爬虫分析2019-2-19
抓个包压压惊…
发现post请求的时候多了个参数.????MmEwMD
这他喵的啥玩意…找了大半天的也没找到生成原理…emmmm~pass掉不管它.继续抓包

先打开Chrome浏览器,清理cookies跟缓存.
F12切换到NETWORK选项, preserve log打上对勾.
打开文书网列表页开始抓包

这个时候发现出现了两次列表页的请求…
裁判文书网python爬虫分析2019-2-19
点开第一次的请求, 发现它给我们返回了两个cookie…
裁判文书网python爬虫分析2019-2-19
然后点开第二个请求,发现返回了一个核心参数vjkl5。

裁判文书网python爬虫分析2019-2-19
而且第二次请求中cookies的N80T值居然不是上一次请求获得的N80T值.长度也不一样,好阔怕的网站…
这说明在第一次请求之后, 本地的cookies被修改了.
继续找原因…
裁判文书网python爬虫分析2019-2-19
于是乎发现在第一次和第二次请求之间, 还有这个请求.
有的时候是D开头,不知道什么鬼.
就是这个链接:
http://wenshu.court.gov.cn/4QbVtADbnLVIc/c.FxJzG50F.6152bb9.js?D9PVtGL=6152bb

看完这个文件整个人都不好了
去度娘找找有没有巨人写好的解密代码
经过半个小时的不懈努力
终于 找 到 了!!
(代码自行百度)
ok, N80T解决…

然后直接拿以前的方法(guid, vl5x, number 这些的生成方式git上一大堆自己找)加上现在的cookie(80T, 80S vjkl5)请求一下看看有什么反应.
裁判文书网python爬虫分析2019-2-19
好像是阔以拿到一些数据, 但是请求一页列表页后就无限202.

多次尝试, 每次翻页都要更换80T才行…如果还是不行, 那就重新请求vjkl5和80S,80T.

大体思路就是这样, 这个网站坑太多, 慢慢填…