python爬虫实战,爬取网页壁纸图片
使用python爬取壁纸图片,保存到本地。
爬取彼岸图网,网站地址https://pic.netbian.com/
本人小白,记录一下学习过程。
开始前的准备
安装python环境,略。
python编辑器pycharm2024.2.3
本次代码用到的库
import requests #用于发送HTTP请求、处理响应内容等。
import re #正则表达式
import os #文件和目录的操作
使用库之前需要先进行安装
首先进行国内pip源设置
我是在windows电脑上操作的,文件资源管理器,输入%USERPROFILE%,然后按下回车
然后新建目录pip,然后再进入pip目录创建pip.ini,将下面阿里云地址保存到pip.ini中
[global]
index-url = http://mirrors.aliyun.com/pypi/simple/
[install]
trusted-host=mirrors.aliyun.com
然后打开pycharm,打开终端,执行安装命令
pip install requests
pip install re
pip install os
整体思路
获取所需要的信息
打开浏览器的,然后打开f12,输入网站地址https://pic.netbian.com/4kmeinv/
可以看到请求地址https://pic.netbian.com/4kmeinv/以及请求方法get
还需要用到user-agent,用来模拟用户操作
图片共53页,我们需要把这53页图片全部爬取下来
点击第53页可以看到此时的请求地址为https://pic.netbian.com/4kmeinv/index_53.html
第一页的地址为https://pic.netbian.com/4kmeinv/index.html
后面每一页的地址都是https://pic.netbian.com/4kmeinv/index_页码.html
编写完整代码
import requests
import re
"""
. 表示除空格外任意字符(除\n外)
* 表示匹配字符零次或多次
? 表示匹配字符零次或一次
.*? 非贪婪匹配
"""
import os
"""
爬取所有图片、该网站图片共53页、第一页url为https://pic.netbian.com/4kmeinv/index.html
后面的url为https://pic.netbian.com/4kmeinv/index_页码.html
"""
url = "https://pic.netbian.com/4kmeinv/index.html"
headers = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36"
}
#range(2,54) 从2开始循环,到53结束,
#当循环到53时,设置url为https://pic.netbian.com/4kmeinv/index_53}.html ,此时需要到下次循环才会爬取第53页的数据
for index in range(2,55):
# 对图片地址发起请求
response = requests.get(url=url, headers=headers)
# 使用检测到的编码来解码相应内容
response.encoding = response.apparent_encoding
print(f"当前是第{index-1}页,当前url为:{url}")
#print(response.text)
url = f"https://pic.netbian.com/4kmeinv/index_{index}.html"
parr = re.compile('src="(/uploads.*?)".alt="(.*?)"')
image = re.findall(parr, response.text)
#定义文件保存路径
path = f"C:\\tmp\壁纸图片\第{index-1}页"
if not os.path.isdir(path):
os.mkdir(path)
else:
#若已存在则直接跳过当前循环
continue
for i in image:
#i[0]是下载地址,i[1]是图片名字
#拼接下载地址
link = "https://pic.netbian.com" + i[0]
image_name = i[1]
image_name = image_name.replace("*", "x")
print(link,image_name)
with open(path+"/{}.jpg".format(image_name), "wb") as img:
res = requests.get(link)
img.write(res.content)
img.close()
print("\n-----------------------------------------\n")
运行截图
#执行完成后,再次执行,可以直观的看到每次请求的url
代码解释
#range(2,54) 从2开始循环,到53结束,
#当循环到53时,设置url为https://pic.netbian.com/4kmeinv/index_53}.html ,此时需要到下次循环才会爬取第53页的数据
for index in range(2,55):
# 对图片地址发起请求
response = requests.get(url=url, headers=headers)
# 使用检测到的编码来解码相应内容
response.encoding = response.apparent_encoding
#打印出当前是第几页
print(f"当前是第{index-1}页,当前url为:{url}")
#如果需要可以打印response.text,查看每一页的请求返回结果
#print(response.text)
#使用index拼接下一次循环时请求的地址
url = f"https://pic.netbian.com/4kmeinv/index_{index}.html"
#对请求结果进行查找,查找包含/uploads和alt的内容
#<img src="/uploads/allimg/240911/190656-1726052816af84.jpg" alt="花丛美女章若楠 4K壁纸 3840x2400" />
parr = re.compile('src="(/uploads.*?)".alt="(.*?)"')
image = re.findall(parr, response.text)
#此时image值的格式如下:
#('/uploads/allimg/240911/190656-1726052816af84.jpg', '花丛美女章若楠 4K壁纸 3840x2400')
#对image进行循环
for i in image:
#i[0]是下载地址 /uploads/allimg/240911/190656-1726052816af84.jpg
#i[1]是图片名字 花丛美女章若楠 4K壁纸 3840x2400
#拼接下载地址
link = "https://pic.netbian.com" + i[0]
image_name = i[1]
#有的图片中包含* 是特殊字符,将其转换为x 示例:1024*4080 --> 1024x4080
image_name = image_name.replace("*", "x")
print(link,image_name)
with open(path+"/{}.jpg".format(image_name), "wb") as img:
res = requests.get(link)
img.write(res.content)
img.close()
图片正确的下载地址如图所示,所以需要进行拼接