了解http常见状态码
可以通过输入错误的密码来找到登陆知乎的post:url
把Headers拉到底部,可以看到form data
_xsrf是需要发送的,需要发送给服务端,否则会返回403错误,提示用户没权限访问
获取xsrf的方法:
# -*- coding: utf-8 -*- import requests,re
#py2里叫cookielib,py3里叫cookiejar
try:
import cookielib
except:
import http.cookiejar as cookielib #拿到浏览器设置的用户代理
User_Agent = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36"
#定义header,注意:header里的key是固定的
header = {
"HOST":"www.zhihu.com",
"Referer":"https://www.zhihu.com",
"User-Agent":User_Agent
}
def get_xsrf():
#可以通过自定义请求头来传入User-Agent
response = requests.get("http://www.zhihu.com",headers=header)
print(response.text)
return '' get_xsrf()
接着使用re模块来获取到这一行数值
#如果匹配不到,那可能是中间有换行符的原因,可以加上re.dotall
match_obj = re.match('.*name="_xsrf" value="(.*?)"', response.text, re.DOTALL)
每次查看知乎页面要用get和post创建新连接效率不高,可以使用session,后面使用requests的方法就在session上调用
session = requests.session()
session = requests.session()
#给session的cookies方法重新指定,cookielib类实例出来的LWPCookieJar方法可以很方便的保存文件
#可以指定一个文件名,如果文件不存在会自动创建。
session.cookies = cookielib.LWPCookieJar(filename="cookies.txt") try:
#加载cookies
session.cookies.load(ignore_discard=True)
except:
print("cookie未能加载") def get_index():
"""
前面用session保存了cookie到本地,这里我再用session调用get方法时,会自动把cookie带过去。
:return:
"""
response = session.get("https://www.zhihu.com", headers=header)
with open("index_page.html","wb") as f:
f.write(response.text.encode('utf-8'))
print("OK")
要判断是否已登陆,可以访问一些需要登陆才有权限访问的页面,比如知乎页面的登陆后的我的私信页面,用FireFox可以先看到返回状态:302临时重定向
接着301重定向,不过我用chrome检测,直接从第三行数据开始展示
所以可以获取状态码来判断是否登陆:
PS:get方法有个参数allow_redirects是否允许重定向,默认是True,如果访问的url状态是301/302,则会去访问重定向的url
def is_login():
#通过个人的私信页面判断是否已登陆
inbox_url = "https://www.zhihu.com/inbox"
#allow_redirects参数是否跳转到重定向的url
response = session.get(inbox_url,headers=header,allow_redirects=False)
if response.status_code != 200:
status_code = False
else:
status_code = True
return status_code
测试获取xsrf时服务器返回500错误,这个是因为使用requests模块时,没有设置浏览器的用户代理,不同的浏览器这个值是不一样的,有的服务器会验证这个是否合法的,这是服务器的一种防御策略。
处理方法:
在知乎登陆界面F12,刷新页面,找到Header请求头:
随机推荐
-
xhtml、html与html5的区别
一.基本概念: html:超文本标记语言 (Hyper Text Markup Language) xhtml:可扩展超文本标记语言,是一种置标语言,表现方式与超文本标记语言(HTML)类似,不过语法 ...
-
Smarty基础
smarty将php代码和HTML代码分开,形成两个页面,通过在php页面引用smarty配置文件,利用php控制HTML页面显示 1,libs文件夹,放入需要使用的文件夹下面 2,配置文件:init ...
-
一个功能齐全的IOS音乐播放器应用源码
该源码是在ios教程网拿过来的,一个不错的IOS音乐播放器应用源码,这个是我当时进公司时 我用了一晚上写的 图片都是在别的地方扒的,主要是歌词同步,及上一曲,下一曲,功能齐全了 ,大家可以学习一下吧 ...
-
NGUI学习笔记(一):官方视频学习记录
学习NGUI一直断断续续的,目前打算做一个总结的笔记. 我使用的是比较老的3.6.0版本. 1.使用NGUI,需要开启“Edit”->“Project Settings”->“Physic ...
-
用opencv画矩形打上马赛克Mosaic
/*----------------------------------------------------------------------------- * * 版权声明: * 可以 ...
- python 一些重要的内建异常类
-
面试中的DNS
DNS 当DNS客户机需要在程序中使用名称时,它会查询DNS服务器来解析该名称.客户机发送的每条查询信息包括三条信息:指定的DNS域名,指定的查询类型,DNS域名的指定类别. DNS基于UDP服务,端 ...
-
干货:教你如何监控 Java 线程池运行状态
之前写过一篇 Java 线程池的使用介绍文章<线程池全面解析>,全面介绍了什么是线程池.线程池核心类.线程池工作流程.线程池分类.拒绝策略.及如何提交与关闭线程池等. 但在实际开发过程中, ...
-
Spring-AOP SpringBoot自动配置和启动Spring AOP
SpringBoot 会使用 @Conditional* 注解来进行判断是否需要自动启动 AOP,如果 classpath 下有 spring-aop 的 jar 和有 EnableAspectJAu ...
-
Spring JDBC处理BLOB类型字段
以下示例将演示使用spring jdbc更新BLOB类型的字段值,即更新student表中的可用记录. student表的结构如下 - CREATE TABLE student( ID INT NOT ...