Python2中的urllib、urllib2与Python3中的urllib以及第三方模块requests变化分析

时间:2020-12-14 18:10:40

     由与python3对python2的urllib和urllib2做了合并,对于初入爬虫世界的小编我来说,还真有点蒙圈。在查阅资料后,在这里做了下urllib库在python2与python3中的区别做下总结。

     首先,说明下大体的变化,python2中,有urllib库和urllib2库。在python3中,urllib2合并到urllib库中,我们爬取网页的时候,经常用到这个库。(urllib是python提供的一个用于操作url的模块

  下面是python2与python3中常用的关于urllib库的变化

      在python2中,urllib和urllib2都是接受URL请求的相关模块,但是提供了不同的功能。两个最显著的不同如下:

     1、urllib2可以接受一个Request的实例来设置URL请求的headers

      2、urllib仅可以接受URL。这意味着,你不可以伪装你的User Agent字符串等。

     urllib 有urlencode,urllib2没有,这也是为什么总是urllib,urllib2常会一起使用的原因

req = urllib2.Request( 
        url=url,  
        data=postdata,  
        headers=headers  
)  
result = urllib2.urlopen(req) 

     在python3中,随着urllib2合入urllib,一些常用的方法也发生了变化:

     1.在python2中使用import urlparse————对应的,在python3中会使用import urllib.parse

     2.在python2中使用urllib2.urlopen————对应的,在python3中会使用urllib.request.urlopen

     3.在python2中使用urllib2.Request————对应的,在python3中会使用urllib.request.Request

    4.在python2中使用urllib.quote————对应的,在python3中会使用urllib.request.quote

    5.python2中使用urllib.urlencode————对应的,在python3中会使用urllib.parse.urlencode

    6.在python2中使用cookielib.CookieJar————对应的,在python3中会使用http.CookieJar

  7.异常处理:在python2中使用urllib2.URLError,urllib2.HTTPError————对应的,在python3中会使用urllib.error.URLError,urllib.error.HTTPError

     进一步了解urllib2,参见中文版翻译文档:http://blog.csdn.net/u014343243/article/details/49308043

Python第三方库requests

    requests 使用的是 urllib3,继承了urllib2的所有特性。requests有很大功能特性:

    支持HTTP连接保持和连接池;支持使用cookie保持会话;支持文件上传;支持自动确定响应内容的编码;支持国际化的 URL 和 POST 数据自动编码。requests不是python自带的库,需要另外安装(pip安装就行了)

    附上一个例子:

   

import requests

r = requests.get(url='http://www.baidu.com')    # 最基本的GET请求
print(r.status_code)    # 获取返回状态
#带参数的GET请求,http://dict.baidu.com/s?wd=python
r = requests.get(url='http://dict.baidu.com/s', params={'wd':'python'})   
print(r.url)
print(r.text)   #打印解码后的返回数据
    除了get 请求外,还可以POST请求,PUT请求,DELETE请求,HEAD请求,OPTIONS请求 对于WEB系统除了get请求外,还可以POST请求,PUT请求,DELETE请求,HEAD请求,OPTIONS请求一般只支持 GET 和 POST,有一些还支持 HEAD 方法
    如想进一步了解requests, 参见 官方指南文档http://docs.python-requests.org/en/latest/user/quickstart.html