python爬虫request发送headers请求

时间:2024-05-22 20:32:51

response响应:
response = requests.get(url)

response的常用方法
`response.text:url响应的网页内容,字符串形式

`response.content:url响应网页内容(二进制形式)

`response.status_code:http请求的返回状态,200就是访问成功,404则失败

判断请求是否成功
assert response.status_code==200
如果是200,不会有任何反应
如果不是200,则报错

response.headers 查看响应头

response.request.headers 请求头
这是默认请求头
python爬虫request发送headers请求
当你用默认请求头去访问百度网站,只会返回一小段的内容,而用浏览器去访问,就有非常多的内容。因为服务器识别出默认的请求头不是一个正常的浏览器,所以只会返回一点。

所以需要发送带header的请求
作用:模拟浏览器,获取和浏览器一样的内容
header的形式为字典形式
我们浏览器的请求头可以在浏览器检查(F12)中找到
python爬虫request发送headers请求
python爬虫request发送headers请求
使用方法:requests.get(url,headers=headers)

此处建议headers名称就为headers,因为后续后面会带许多参数,避免混乱。

如果某一天发现带上headers也没用的话就考虑带上Host,Connection等,如果还是没用就带上cookie,而在大部分情况的一般都只用带headers

发送带参数的请求
参数形式:字典
python爬虫request发送headers请求

p={“wd”:“世界”}
使用方法:request.get(url,params=p}
实际上就是做一个拼接操作,后续也可以使用%s,或format格式