python爬虫处理POST request payload请求
最近在采集某网站的时候发现是通过post请求来请求数据的,使用的数据格式是request payload,这个和之前看到过的常见的POST请求不同(Form data),这个时候在使用Form data的请求方式来提交时,就无法请求到真实数据了。
Http请求中Form data和request payload的区别:其实这两种都是ajax中常见的两种传参数的形式
Form data
get请求的时候我们通常直接在url中以key=value的形式
post请求,表单参数都是在请求体中的,也就是将key=value从url中剥离了出来
request payload
要是使用的是原声的ajax post请求的话,那么在chrome中的开发者模式下会看到单独的request payload中的参互展示出来
在请求的content-Type中是application/json;charset=UTF=8,而在请求表单的参数在request payload中
两者之间的区别
如果一个请求的content-Type被设置成application/x-www-form-urlencoded,那么这个Post请求会被认为是Http Post请求,那么请求的主体将会以一个标准的键值对和&的querystring形式出现,这种方式是HTML表单的默认设置,所以在过去这种方式更加常见
其他形式的POST请求,是放到request payload中(现在为了方便阅读,使用了json进行序列化),所以请求的content-Type设置成了application/json;charset=UTF-8或者是不指定
python中使用requests模块来请求post payload模块
payloadData = { \'initPage\': \'false\', \'pageNum\': \'1\', \'pageSize\': \'20\', \'supplierCateId\': "-1", \'queryType\': "pro" } payloadData[\'pageNum\'] = str(jb) # 请求头设置 payloadHeader = { \'Host\': \'a300010770.casmart.com.cn\', \'Content-Type\': \'application/json\', } r = requests.post(postUrl, data=json.dumps(payloadData), headers=payloadHeader).text