本文作者:ZiCh
本文链接:https://www.cnblogs.com/zichliang/p/17083105.html
版权声明:未经作者允许严禁转载
aHR0cDovL3d3dy50bm1nLmNvbS5jbi9pbmZvcm1hdGlvbi9pbmZvX3h3enguYXNweD9jbGFzc2lkPTMx
分析
此网站根据cookie加密 如cookie无效则返回 412 有点像某数。
根据抓包分析 可知 这个
Cookie: ASP.NET_SessionId=irftqluvfywztp3nhmfqsgab; ASP.NET_SessionId_NS_Sig=oenCV6mdwHx26gTo; eFKuN5wtW89D006=K7vHE8llNk_GHoH63eOhtYf6Tr3vg0boafQPv9qOVyQRtO6M6rtkgWprfZrRt11Vr_OchRw__wmXgj2B9B70eMsA6XWIrwQ4BmwLUu23eXBog
这些cookie 是我们所传的参数。
定位函数入口
根据hook 确定 cookie加密的未知
然后我们一步一步追栈进入
这部分就是函数入口,我们在控制调用函数看看
由此可见 这就是cookie生成的入口了
耐心扣代码
我们找到了cookie生成的位置 接下来就是慢慢扣代码了
函数R\(ih()和R\)ff.R$aK();由我们多次试验可知 这是一个定值(如果不确定调用函数也行 这两个函数扣起来比较简单。)
所以我们可以改写一下
var R$aZ = 'eFKuN5wtW89D006'
var R$jZ = "K"
var R$ma = R$lA(); // 32位随机数
var R$jy = R$jn(); // 16位随机数
var R$fX = R$ke(); // 43位随机数
var R$gQ = R$jZ + R$jP(R$jy["concat"](R$jt(R$fX, R$ma)));
接下里就是扣这三个数组随机数了
R$lA()
由此可见这是cookey
但是生成的地方我们暂时不知道
所以我们可以先扣其他地方 这个地方暂时写死好了
R$jn();
同理 这个随机数也是一样的。
R$ke();
然后我们扣这个函数
这里有个坑
在扣R$lr();这个函数的时候,我们会发现很多selenium webdriver
这种情况要伪装的参数太多了,而且往里面越扣就越多,索性我们直接写死写成个定值
反正也只是一大堆环境检测。
其他顺着慢慢扣就好了。
执行JS
本文来自:来自: https://www.cnblogs.com/zichliang/
然后我们执行我们的JS
发现可以运行。
我们放到Python中运行,发现还是不行。
解决服务器动态生成问题。
那肯定是我们刚刚写的定值不对。唯一值得怀疑的点 就是那个"cookieKey"还有"blackBlock"
但是这两个值怎么追栈都找不到,
所以我们反复hook
会发现有有些值可能是服务器生成的。
所以我们只要找到这个函数入口函数即可。
实验多次,我们找到了这个函数。
然后我们只要把这个cookieKey 和 blackBlock提取出来即可。
我们后续只需要
用正则把这个值提取出来就能正常爬取了。
运行验证
可以正常运行~~
本文作者:ZiCh
本文链接:https://www.cnblogs.com/zichliang/p/17083105.html
版权声明:未经作者允许严禁转载