五、Python爬虫的抓取网页

Python 爬虫应用案例：爬取目标的网页，并将其保存到本地。

对要编写的爬虫程序进行分析，可以简单分为为以下三个部分：

目标 url 地址
发送请求
将响应数据保存至本地

明确逻辑后，我们就可以正式编写爬虫程序了。

5.1 导入所需模块

在这里我们使用标准库 urllib 库来编写爬虫，导入所需模块，代码如下：

from urllib import request
from urllib import parse

5.2 获取目标URL地址

定义 URL 变量，拼接 url 地址，从而获取目标地址。代码如下：

url = 'http://www.baidu.com/s?wd={}'
# 想要搜索的内容
word = input('请输入搜索内容:')
params = parse.quote(word)
full_url = url.format(params)

5.3 向目标URL发送请求

发送请求主要分为以下三个步骤：

创建请求对象-Request
获取响应对象-urlopen
解析响应内容-read

代码如下：

# 重构请求头
headers = {'User-Agent': 'Mozilla/6.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0'}
# 创建请求对应
req = request.Request(url=full_url, headers=headers)
# 获取响应对象
res = request.urlopen(req)
# 解析响应内容
html = res.read().decode("utf-8")

5.4 保存为本地文件

把爬取的照片保存至本地，此处需要使用 Python 编程的文件 IO 操作，代码如下：

filename = word + '.htm'
with open(filename,'w', encoding='utf-8') as f:
    f.write(html)

完整程序如下所示：

from urllib import request, parse

# 1.拼url地址
url = 'http://www.baidu.com/s?wd={}'
word = input('请输入搜索内容:')
params = parse.quote(word)
full_url = url.format(params)
# 2.发请求保存到本地
headers = {'User-Agent': 'Mozilla/6.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0'}
req = request.Request(url=full_url, headers=headers)
res = request.urlopen(req)
html = res.read().decode('utf-8')
# 3.保存文件至当前目录
filename = word + '.htm'
with open(filename, 'w', encoding='utf-8') as f:
    f.write(html)

5.5 优化程序

Python 函数式编程可以让程序的思路更加清晰、易懂。接下来，使用函数编程的思想更改上面代码。

定义相应的函数，通过调用函数来执行爬虫程序。修改后的代码如下所示：

from urllib import request
from urllib import parse


# 拼接URL地址
def get_url(word):
    url = 'http://www.baidu.com/s?{}'
    # 此处使用urlencode()进行编码
    params = parse.urlencode({'wd': word})
    url = url.format(params)
    return url


# 发请求,保存本地文件
def request_url(url, filename):
    headers = {'User-Agent': 'Mozilla/6.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0'}
    # 请求对象 + 响应对象 + 提取内容
    req = request.Request(url=url, headers=headers)
    res = request.urlopen(req)
    html = res.read().decode('utf-8')
    # 保存文件至本地
    with open(filename, 'w', encoding='utf-8') as f:
        f.write(html)


# 主程序入口
if __name__ == '__main__':
    word = input('请录入搜索内容:')
    url = get_url(word)
    filename = word + '.htm'
    request_url(url, filename)

秒客网

【Python】【进阶篇】五、Python爬虫的抓取网页

目录