由与python3对python2的urllib和urllib2做了合并,对于初入爬虫世界的小编我来说,还真有点蒙圈。在查阅资料后,在这里做了下urllib库在python2与python3中的区别做下总结。
首先,说明下大体的变化,在python2中,有urllib库和urllib2库。在python3中,urllib2合并到urllib库中,我们爬取网页的时候,经常用到这个库。(urllib是python提供的一个用于操作url的模块)
下面是python2与python3中常用的关于urllib库的变化:
在python2中,urllib和urllib2都是接受URL请求的相关模块,但是提供了不同的功能。两个最显著的不同如下:
1、urllib2可以接受一个Request类的实例来设置URL请求的headers
2、urllib仅可以接受URL。这意味着,你不可以伪装你的User Agent字符串等。
urllib 有urlencode,urllib2没有,这也是为什么总是urllib,urllib2常会一起使用的原因
req = urllib2.Request( url=url, data=postdata, headers=headers ) result = urllib2.urlopen(req)
在python3中,随着urllib2合入urllib,一些常用的方法也发生了变化:
1.在python2中使用import urlparse————对应的,在python3中会使用import urllib.parse
2.在python2中使用urllib2.urlopen————对应的,在python3中会使用urllib.request.urlopen
3.在python2中使用urllib2.Request————对应的,在python3中会使用urllib.request.Request
4.在python2中使用urllib.quote————对应的,在python3中会使用urllib.request.quote
5.在python2中使用urllib.urlencode————对应的,在python3中会使用urllib.parse.urlencode
6.在python2中使用cookielib.CookieJar————对应的,在python3中会使用http.CookieJar
7.异常处理:在python2中使用urllib2.URLError,urllib2.HTTPError————对应的,在python3中会使用urllib.error.URLError,urllib.error.HTTPError
进一步了解urllib2,参见中文版翻译文档:http://blog.csdn.net/u014343243/article/details/49308043
Python第三方库requests
requests 使用的是 urllib3,继承了urllib2的所有特性。requests有很大功能特性:支持HTTP连接保持和连接池;支持使用cookie保持会话;支持文件上传;支持自动确定响应内容的编码;支持国际化的 URL 和 POST 数据自动编码。requests不是python自带的库,需要另外安装(pip安装就行了)
附上一个例子:
import requests r = requests.get(url='http://www.baidu.com') # 最基本的GET请求 print(r.status_code) # 获取返回状态 #带参数的GET请求,http://dict.baidu.com/s?wd=python r = requests.get(url='http://dict.baidu.com/s', params={'wd':'python'}) print(r.url) print(r.text) #打印解码后的返回数据除了get 请求外,还可以POST请求,PUT请求,DELETE请求,HEAD请求,OPTIONS请求 对于WEB系统除了get请求外,还可以POST请求,PUT请求,DELETE请求,HEAD请求,OPTIONS请求一般只支持 GET 和 POST,有一些还支持 HEAD 方法
如想进一步了解requests, 参见 官方指南文档: http://docs.python-requests.org/en/latest/user/quickstart.html