scrapy cookies：将cookies保存到文件以及从文件加载cookies

我在使用scrapy模拟登录新浪微博时，想将登录成功后的cookies保存到本地，下次加载它实现直接登录，省去中间一系列的请求和POST等。关于如何从本次请求中获取并在下次请求中附带上cookies的方法，官方文档已经有很好的说明，网上也有很多相关的资料，但是将cookies存储到文件和从文件加载cookies却未找到相关的说明，只好自己折腾了，经过一番尝试，总算是实现了该功能，方法记录如下。

简单分析scrapy的cookies

查看scrapy与cookies有关的源码，在http/cookies.py文件中，下面是部分代码：

import time

from cookielib import CookieJar as _CookieJar, DefaultCookiePolicy, IPV4_RE

from scrapy.utils.httpobj import urlparse_cached

class CookieJar(object):

    def __init__(self, policy=None, check_expired_frequency=10000):

        self.policy = policy or DefaultCookiePolicy()

        self.jar = _CookieJar(self.policy)

        self.jar._cookies_lock = _DummyLock()

        self.check_expired_frequency = check_expired_frequency

        self.processed = 0

    def extract_cookies(self, response, request):

        wreq = WrappedRequest(request)

        wrsp = WrappedResponse(response)

        return self.jar.extract_cookies(wrsp, wreq)

    @property

    def _cookies(self):

        return self.jar._cookies

    def set_cookie(self, cookie):

        self.jar.set_cookie(cookie)

可以看出scrapy的CookieJar类基本上是通过cookielib的CookieJar类来实现的相应功能。

获取cookies

将meta的cookie_jar设置为CookieJar对象，通过response.meta['cookie_jar']即可获得cookies的内容。

from scrapy.http.cookies import CookieJar

cookie_jar = CookieJar()

return [scrapy.FormRequest(url="http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.15)",

                           formdata=self.login_data,

                           meta = {'dont_merge_cookies': True, 'cookiejar': cookie_jar},#首次请求

                           callback=self.after_post)]

......

#之后的每次请求通过传递这个CookieJar对象

yield scrapy.Request(login_url, meta = {'dont_merge_cookies': True, 'cookiejar' : response.meta['cookiejar']}, callback=self.verify_login)

......

#登录成功后，得到要保存的cookies，为CookieJar对象

cookie_jar = response.meta['cookiejar']

cookie_jar.extract_cookies(response, response.request)

将cookies存储到文件

可以通过CookieJar._cookies方法将cookies转换为字典类型进行存储，也可以通过遍历的方式将各条cookies分别存储，为了后续解析的简单，我选择了遍历的方式：

with open(self.cookie_file, 'wb+') as f:

    for cookie in cookie_jar:

        f.write(str(cookie) + '\n')

这种方式相比直接存储为字典格式的方式而言，遍历后自动忽略了一部分cookies，数量相比后者有明显减少，但分析后发现，关于最后一次请求也就是登录成功时的请求的cookies都被保存了下来，没有被忽略，如果不放心，完全可以直接解析完整的字典类型的cookies。保存下来的cookies格式如：

<Cookie SRF=1456586813 for .passport.weibo.com/>

......

<Cookie SSOLoginState=1456586813 for .weibo.com/>

从文件加载cookies

通过FireFox分析微博登录成功时的请求返回的cookies以及这篇博客可知，用于登录的cookies的domain都是.weibo.com，那么可以通过正则表达式从文件中提取相关的cookies：

with open(self.cookie_file) as f:

    cookiejar = f.read()

p = re.compile('\<Cookie (.*?) for .weibo.com\/\>')

cookies = re.findall(p, cookiejar)

cookies = (cookie.split('=') for cookie in cookies)

cookie_jar = dict(cookies)

这里之所以将读取的cookies转换为字典类型，是因为若要在scrapy的请求中手动添加cookies，需要使用scrapy.Request方法中的cookies参数。将从文件中加载的字典类型的cookie_jar赋值给cookies参数，可以实现直接登录微博：

yield scrapy.Request(url='http://weibo.com', cookies=cookie_jar, callback=self.logined)

scrapy cookies：将cookies保存到文件以及从文件加载cookies的更多相关文章

scrapy加载cookies登陆
import scrapy from xxxx.items import XXXXItem from scrapy.http.request import Request class ZndsSpid ...
Java将对象保存到文件中/从文件中读取对象
1.保存对象到文件中 Java语言只能将实现了Serializable接口的类的对象保存到文件中,利用如下方法即可: public static void writeObjectToFile(Obje ...
python之scrapy爬取数据保存到mysql数据库
1.创建工程 scrapy startproject tencent 2.创建项目 scrapy genspider mahuateng 3.既然保存到数据库,自然要安装pymsql pip inst ...
php cUrl模拟登录，cookie保存到文件中
源码如下: <?php header("Content-Type:text/html;charset=utf-8"); //模拟群友通讯录手机号登录 $curl = curl ...
php导出csv数据在浏览器中输出提供下载或保存到文件的示例
来源:http://www.jb51.net/article/49313.htm 1.在浏览器输出提供下载 /** * 导出数据到CSV文件 * @param array $data 数据 * @pa ...
Python3操作MySQL，查询数据并保存到文件中
我们在测试过程中,可能需要到数据库中拉去一些数据,为从测试准备.比如最近在做接口性能测试的时候,就需要很多数据来支撑,所以就需要的数据库去查询数据,下面就是python3 查询 mysql 并且保存到 ...
Object 保存到文件中
6月4日 Object 保存到文件中 Q. 你添加一个新类到你的项目当中且你希望可以保存这个类的一个实例对象到磁盘文件并在需要时从磁盘文件读回到内存中 A. 方案确保你的类遵循 NSCodi ...
python pickle模块的使用/将python数据对象序列化保存到文件中
# Python 使用pickle/cPickle模块进行数据的序列化 """Python序列化的概念很简单.内存里面有一个数据结构, 你希望将它保存下来,重用,或者发送 ...
Log 日志工具类保存到文件 MD
Markdown版本笔记我的GitHub首页我的博客我的微信我的邮箱 MyAndroidBlogs baiqiantao baiqiantao bqt20094 baiqiantao@sina ...

随机推荐

Windows建立Cucumber和Ruby测试环境
1. 下载安装Ruby1.9.3, 不要用RubyInstall 一键安装,下载zip然后解压到c:\Ruby193 (不要用2.0,用2.0安装不成功,不要怪我) 2. 环境变量配置RUBY_HOM ...
框架整合----------Hibernate、spring整合
说到整合框架,其实也就是环境的搭建了,首先我们要导包,这里连接数据库我们用到了spring容器,我们用连接池来进行数据库的连接,我们需要导入c3p0和jdbc的jar包,其余的就是spring和Hib ...
POJ3255Roadblocks[次短路]
Roadblocks Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 12697 Accepted: 4491 Descr ...
StackExchange&period;Redis&period;Extensions&period;Core 源码解读之 Configuration用法
前言之前接触到Redis,然后选用了对StackExchange.Redis又一层封装的StackExchange.Redis.Extensions.Core类库.阅读源代码的过程中发现了他使用Co ...
Part 98 Anonymous methods in c&num;
What is an anonymous method? Anonymous method is a method without a name. Introduced in C# 2.0,they ...
jQuery增加删除修改tab导航特效
HTML: <div class="container iden_top"> <ul> ...
BZOJ 3983 Takeover Wars 解题报告
我猜了一个结论,能合并就合并,到了必须要敌对交易的时候才进行敌对交易. 然后合并的话,肯定是拿最大的两个去合并. 至于敌对交易,肯定是干掉对方最大的公司才是有意义的. 于是各种分类讨论...看代码好了 ...
&period;sdp文件格式介绍
最近做RTSP流播放,需要了解.sdp这种会话描述的文件格式,当然,里面的具体语法有SDP解析器来分析.但是我需要大概了解一些字段的意思,它是文本描述的,采用key value的形式描述. https ...
python 每日一练：读取log文件中的数据，并画图表
之前在excel里面分析log数据,简直日了*了. 现在用python在处理日志数据. 主要涉及 matplotlib,open和循环的使用. 日志内容大致如下 2016-10-21 21:07:59 ...
C++版 - 剑指offer面试题28&colon; 字符串的排列
题目: 字符串的排列热度指数:5777 时间限制:1秒空间限制:32768K 本题知识点: 字符串题目描述输入一个字符串,按字典序打印出该字符串中字符的所有排列.例如输入字符串abc,则打印出 ...