Python爬虫入门之Cookie的使用

本节我们一起来看一下Cookie的使用。

　　为什么要使用Cookie呢？

　　Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）

　　比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie，然后再抓取其他页面就达到目的了。

　　在此之前呢，我们必须先介绍一个opener的概念。

1.Opener

　　当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。在前面，我们都是使用的默认的opener，也就是urlopen。它是一个特殊的opener，可以理解成opener的一个特殊实例，传入的参数仅仅是url，data，timeout。

　　如果我们需要用到Cookie，只用这个opener是不能达到目的的，所以我们需要创建更一般的opener来实现对Cookie的设置。

2.Cookielib

　　cookielib模块的主要作用是提供可存储cookie的对象，以便于与urllib2模块配合使用来访问Internet资源。Cookielib模块非常强大，我们可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送，比如可以实现模拟登录功能。该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。

　　它们的关系：CookieJar —-派生—->FileCookieJar —-派生—–>MozillaCookieJar和LWPCookieJar

　　1）获取Cookie保存到变量

　　首先，我们先利用CookieJar对象实现获取cookie的功能，存储到变量中，先来感受一下

 import urllib2

 import cookielib

 #声明一个CookieJar对象实例来保存cookie

 cookie = cookielib.CookieJar()

 #利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器

 handler=urllib2.HTTPCookieProcessor(cookie)

 #通过handler来构建opener

 opener = urllib2.build_opener(handler)

 #此处的open方法同urllib2的urlopen方法，也可以传入request

 response = opener.open('http://www.baidu.com')

 for item in cookie:

     print 'Name = '+item.name

     print 'Value = '+item.value

　　我们使用以上方法将cookie保存到变量中，然后打印出了cookie中的值，运行结果如下

 Name = BAIDUID

 Value = B07B663B645729F11F659C02AAE65B4C:FG=1

 Name = BAIDUPSID

 Value = B07B663B645729F11F659C02AAE65B4C

 Name = H_PS_PSSID

 Value = 12527_11076_1438_10633

 Name = BDSVRTM

 Value = 0

 Name = BD_HOME

 Value = 0

　　2）保存Cookie到文件

　　在上面的方法中，我们将cookie保存到了cookie这个变量中，如果我们想将cookie保存到文件中该怎么做呢？

　　这时，我们就要用到 FileCookieJar这个对象了，在这里我们使用它的子类MozillaCookieJar来实现Cookie的保存

 import cookielib

 import urllib2

 #设置保存cookie的文件，同级目录下的cookie.txt

 filename = 'cookie.txt'

 #声明一个MozillaCookieJar对象实例来保存cookie，之后写入文件

 cookie = cookielib.MozillaCookieJar(filename)

 #利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器

 handler = urllib2.HTTPCookieProcessor(cookie)

 #通过handler来构建opener

 opener = urllib2.build_opener(handler)

 #创建一个请求，原理同urllib2的urlopen

 response = opener.open("http://www.baidu.com")

 #保存cookie到文件

 cookie.save(ignore_discard=True, ignore_expires=True)

　　关于最后save方法的两个参数在此说明一下：

　　官方解释如下：

　　　　ignore_discard: save even cookies set to be discarded.

　　　　ignore_expires: save even cookies that have expiredThe file is overwritten if it already exists

　　由此可见，ignore_discard的意思是即使cookies将被丢弃也将它保存下来，ignore_expires的意思是如果在该文件中cookies已经存在，则覆盖原文件写入，在这里，我们将这两个全部设置为True。运行之后，cookies将被保存到cookie.txt文件中，我们查看一下内容，附图如下

Python爬虫入门之Cookie的使用

　　3）从文件中获取Cookie并访问

　　那么我们已经做到把Cookie保存到文件中了，如果以后想使用，可以利用下面的方法来读取cookie并访问网站，感受一下

 import cookielib

 import urllib2

 #创建MozillaCookieJar实例对象

 cookie = cookielib.MozillaCookieJar()

 #从文件中读取cookie内容到变量

 cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)

 #创建请求的request

 req = urllib2.Request("http://www.baidu.com")

 #利用urllib2的build_opener方法创建一个opener

 opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))

 response = opener.open(req)

 print response.read()

　　设想，如果我们的 cookie.txt 文件中保存的是某个人登录百度的cookie，那么我们提取出这个cookie文件内容，就可以用以上方法模拟这个人的账号登录百度。

　　4）利用cookie模拟网站登录

　　下面我们以我们学校的教育系统为例，利用cookie实现模拟登录，并将cookie信息保存到文本文件中，来感受一下cookie大法吧！

　　注意：密码我改了啊，别偷偷登录本宫的选课系统 o(╯□╰)o

 import urllib

 import urllib2

 import cookielib

 filename = 'cookie.txt'

 #声明一个MozillaCookieJar对象实例来保存cookie，之后写入文件

 cookie = cookielib.MozillaCookieJar(filename)

 opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))

 postdata = urllib.urlencode({

             'stuid':'',

             'pwd':''

         })

 #登录教务系统的URL

 loginUrl = 'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bks_login2.login'

 #模拟登录，并把cookie保存到变量

 result = opener.open(loginUrl,postdata)

 #保存cookie到cookie.txt中

 cookie.save(ignore_discard=True, ignore_expires=True)

 #利用cookie请求访问另一个网址，此网址是成绩查询网址

 gradeUrl = 'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bkscjcx.curscopre'

 #请求访问成绩查询网址

 result = opener.open(gradeUrl)

 print result.read()

　　以上程序的原理如下

　　创建一个带有cookie的opener，在访问登录的URL时，将登录后的cookie保存下来，然后利用这个cookie来访问其他网址。

　　如登录之后才能查看的成绩查询呀，本学期课表呀等等网址，模拟登录就这么实现啦，是不是很酷炫？

　　转载整理自：静觅 » Python爬虫入门六之Cookie的使用

Python爬虫入门之Cookie的使用的更多相关文章

Python爬虫入门：Cookie的使用
大家好哈,上一节我们研究了一下爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用. 为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份.进行session跟踪而储存在 ...
芝麻HTTP：Python爬虫入门之Cookie的使用
为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份.进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓 ...
Python爬虫入门六之Cookie的使用
大家好哈,上一节我们研究了一下爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用. 为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份.进行session跟踪而储存在 ...
转 Python爬虫入门三之Urllib库的基本使用
静觅 » Python爬虫入门三之Urllib库的基本使用 1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器 ...
python爬虫入门01：教你在 Chrome 浏览器轻松抓包
通过 python爬虫入门:什么是爬虫,怎么玩爬虫? 我们知道了什么是爬虫也知道了爬虫的具体流程那么在我们要对某个网站进行爬取的时候要对其数据进行分析就要知道应该怎么请求就要知道获取的数据是 ...
Python爬虫入门（二）之Requests库
Python爬虫入门(二)之Requests库我是照着小白教程做的,所以该篇是更小白教程hhhhhhhh 一.Requests库的简介 Requests 唯一的一个非转基因的 Python HTTP ...
Python爬虫入门一之综述
大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验. Pyth ...
python爬虫入门-开发环境与小例子
python爬虫入门开发环境 ubuntu 16.04 sublime pycharm requests库 requests库安装: sudo pip install requests 第一个例子 ...
Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分
1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应 ...

随机推荐

Java 开发 gRPC 服务和客户端
新建一个普通的Maven项目: 配置pom文件,导入gRPC的依赖和插件 pom 中增加外部依赖 <dependency> <groupId>io.grpc</g ...
58&period; Length of Last Word
题目: Given a string s consists of upper/lower-case alphabets and empty space characters ' ', return t ...
linux于test 订购具体解释
測试标志代表意义文件名称.文件类型 -e 该文件名称是否存在 -f 该文件名称是否存在且为file -d 该文件名称是否存在且为文件夹 -b 该文件名称是否存在且为一个block -c 该文件名称 ...
JAVA 发送邮件代码---发送文本内容：内容使用\n 进行换行
依赖包:mail.jar JAR链接地址: http://pan.baidu.com/s/1o8LNl0Y 密码: ja52 package mail; import java.util.Proper ...
Xcode新建python项目
1.找到电脑上安装Python的路径.OSX系统默认安装了python,默认的路径为/usr/bin/python.不确定的情况下,也可以打开命令行,用 whereis python 命令查看 2.打 ...
workday3~4
这两天算是把一个模块的功能做完了,功能是数据统计,即按输入的时间统计X小时各个服务器status的数量以及各个服务器的信息,学到了不少东西,为了避免忘记,先记录,有空再整理一下. 1.时间戳的问题选 ...
201521044091 《Java程序设计》第11周学习总结
1. 本章学习总结 2. 书面作业 Q1.1.互斥访问与同步访问完成题集4-4(互斥访问)与4-5(同步访问) 1.1 除了使用synchronized修饰方法实现互斥同步访问,还有什么办法实现互斥同 ...
【原创】大数据基础之Hive（3）最简绿色部署
hadoop部署参考:https://www.cnblogs.com/barneywill/p/10428098.html 1 拷贝到所有服务器上并解压 # ansible all-servers - ...
POJ 3177 Redundant Paths (边双连通+缩点)
<题目链接> <转载于 >>> > 题目大意: 有n个牧场,Bessie 要从一个牧场到另一个牧场,要求至少要有2条独立的路可以走.现已有m条路,求至少要新 ...
shell脚本简单实例
1.模拟linnux登录shell #/bin/bashecho -n "login:" read nameecho -n "password:"read pa ...