我们都见识过requests库在静态网页的爬取上展现的威力,我们日常见得最多的为get和post请求,他们最大的区别在于安全性上:
1、get是通过url方式请求,可以直接看到,明文传输。
2、post是通过请求header请求,可以开发者工具或者抓包可以看到,同样也是明文的。 3.get请求会保存在浏览器历史纪录中,还可能会保存在web的日志中。
两者用法上也有显著差异(援引自知乎):
1、get用于从服务器端获取数据,包括静态资源(html|js|css|image等等)、动态数据展示(列表数据、详情数据等等)。
2、post用于向服务器提交数据,比如增删改数据,提交一个表单新建一个用户、或修改一个用户等。
对于post请求,我们可以通过浏览器开发者工具或者其他外部工具来进行抓包,得到请求的url、请求头(request headers)以及请求的表单data信息,这三样恰恰是我们用requests模拟post请求时需要的,典型的写法如下:
1
|
response = requests.post(url = url,headers = headers,data = data_search)
|
由于post请求很多时候是配合ajax(异步加载)技术一起使用的,我们抓包时,可以直接选择xhr(xmlhttprequest)-ajax的一种对象,帮助我们滤掉其他的一些html、css、js类文件,如下图所示(截取自chrome):
双击点开,就可以在页面右边的headers页下看到general、response headers、request headers、form data几个模块,
其中general模块能看到请求的方法和请求的url以及服务器返回的状态码(200(成功) 服务器已成功处理了请求。通常,这表示服务器提供了请求的网页。)
而response headers部分,可以看到缓存控制、服务器类型、返回内容格式、有效期等参数(笔者截图所示,返回的为json文件):
request header模块是非常重要的,可以有效地将我们的爬取行为模拟成浏览器行为,应对常规的服务器反爬机制:
其中content-type、cookie以及user-agent字段较为重要,需要我们构造出来(其他字段大多数时候,不是必须)
由于cookie字段记录了用户的登陆信息,每次都不同,且同一个cookie存在一定有效期,当我们结合selenium来组合爬取页面信息时,可以通过selenium完成网页的登陆校验,然后利用selenium提取出cookie,再转换为浏览器能识别的cookie格式,通常代码如下所示:
1
2
3
4
5
6
|
cookies = driver.get_cookies() #利用selenium原生方法得到cookies
ret = ''
for cookie in cookies:
cookie_name = cookie[ 'name' ]
cookie_value = cookie[ 'value' ]
ret = ret + cookie_name + '=' + cookie_value + ';' #ret即为最终的cookie,各cookie以“;”相隔开
|
紧接着,我们需要构造headers部分(即请求头),我们挑重点的几个字段进行构造:
1
2
3
4
5
6
7
8
|
headers = {
'host' : '**********.com' ,
'referer' : 'http://****************/check/index.do' ,
'user-agent' : 'mozilla/5.0 (windows nt 10.0; wow64) applewebkit/537.36 (khtml, like gecko) chrome/70.0.3538.110 safari/537.36' ,
'x-requested-with' : 'xmlhttprequest' ,
'content-type' : 'application/x-www-form-urlencoded; charset=utf-8' ,
'cookie' :ret #需要登陆后捕获cookie并调用
}
|
我们在网页中点击“确定”按钮,网页则会异步加载,后台发出post请求,取到json文件并渲染到网页表单中,比如我们根据需求填写了部分字段(这些就是我们post请求的data信息),然后观察后台的form data信息:
后台form data 捕获到的data参数如图:
类似于字典格式,其中condition键对应的value较为复杂——列表中包含字典,字典中还有部分函数,其中字符串中既有单引号又有双引号交错。属于关键信息,page决定了网页的翻页在第几页,而rows则表示每次请求的数据限定的最大行数。
本例中问题的关键是,如何把想要的信息(譬如来源于excel配置文件)传递到condition字段对应的值内,确保form data信息灵活可配置,大抵用法如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
|
data_search = {
'page' : 1 ,
'rows' : 15 ,
'condition' :
"""[\
{"column":"bpm_def_name","exp":"like","value":""},\
{"column":"delete_status","exp":"=","value":0},\
{"column":"to_char(to_date(create_date,'yyyy-mm-dd hh24:mi:ss'),'yyyy-mm-dd')","exp":">=","value":"yyyy-mm-dd"},\
{"column":"to_char(to_date(create_date,'yyyy-mm-dd hh24:mi:ss'),'yyyy-mm-dd')","exp":"<=","value":"yyyy-mm-dd"},\
{"column":"check_type","exp":"like","value":"2"},\
{"column":"locked_status","exp":"=","value":0},\
{"column":"delete_status","ordertype":"default","orderkey":"","direction":"asc"}\
]""" , #考虑到该字段已经有单引号、双引号,所以只能用三引号来包住这部分代表字符串
'additionalparams' : '{}'
}
data_search_condition = json.loads(data_search[ 'condition' ]) #将字符串转为列表,方便更新列表(列表中每个元素都是一个单个字典)元素
#刷新字典
data_search_condition[ 0 ][ 'value' ] = businessname
data_search_condition[ 2 ][ 'value' ] = str (startdate)
data_search_condition[ 3 ][ 'value' ] = str (enddate)
data_search[ 'condition' ] = json.dumps(data_search_condition) #将列表重新转回字符串,作为data_search字典中键“condition”对应的“value”,然后更新字典
|
上述代码中,data_search其实为字典对象,其键“condition”对应的值(三引号包住部分)为字符串,本质是json格式,我们如何对这部分动态传参呢?
这里需要用到python json包中常用的loads和dumps方法:
1、json.loads()是将json格式对象,转化python可识别的字典对象。解码python json格式,可以用这个模块的json.loads()函数的解析方法。
2、json.dumps()是将一个python数据类型列表进行json格式的编码解析,可以将一个list列表对象,进行了json格式的编码转换。
3、json.dump和json.dumps很不同,json.dump主要用来json文件读写,和json.load函数配合使用。
上面实例中,就是将data_search['condition']
(json,字符串)转换为列表,然后根据列表定位到底层的每个dict字典,最后根据dict[key]=value的方法进行更新(传参),更新完之后的列表,再通过json.dumps反向转回字符串,这样整个data_search字典中参数就可以灵活配置,通过外部引入了。
剩下的工作就很简单,交给强大的requests包完成就好,示例代码如下:
1
2
3
4
5
6
7
|
def get_page(data_search,url): #定义页面解析的函数,返回值为json格式
try :
response = requests.post(url = url,headers = headers,data = data_search)
if response.status_code = = 200 :
return response.json()
except requests.connectionerror as e:
print ( 'error' ,e.args)
|
我们还可以把json格式内容存到本地(data.json)格式文件或者txt文本,并按照特定缩进(indent=4)进行规则排版,格式化内容,此时要用到json.dump()方法,示例代码如下:
1
2
3
4
5
6
7
8
9
|
for pagenum in range ( 1 , 1000 ):
data_search[ 'page' ] = str (pagenum)
pagecontent = get_page(data_search = data_search,url = url)
with open ( 'data.json' , 'w' ,encoding = "utf-8" ) as json_file:
json.dump(pagecontent,json_file,ensure_ascii = false,indent = 4 )
if pagecontent = = none:
print ( "无符合条件的单据!" )
time.sleep( 3 )
sys.exit( 0 )
|
格式化后的json看上去直观不少:
最后感慨一句:爬虫是门技术活,任何一个技术理解地不够透彻,碰到复杂的问题,可能就要花上很长时间去试错,譬如本文示例中的字典、json包几个功能的使用,稍微出错,就无法请求到对的数据!
ps:特别强调一点,有的时候requests.post()方法中data字段不填或者填写有误,服务器有时也会返回200状态码以及相应内容。这种情况下,我们一定要与手工操作得到的json文件进行对比,看看我们的传参(多测试几组不同的参数,看返回json内容是否不同)是否真的起到作用,以免空欢喜一场!
总结
以上所述是小编给大家介绍的python利用requests库模拟post请求时json的使用教程 ,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对服务器之家网站的支持!
原文链接:https://www.cnblogs.com/new-june/archive/2018/12/06/10079800.html