今天突发奇想小试爬虫,获取一下某素材站一些图片
实现步骤如下:
import re import requests from urllib import request import os # 1.首先要检查数据是否是动态加载出来的 # 2.获取页面源码数据 if not os.path.exists('tupian'): os.mkdir('tupian') headers = { "User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36" } url = "http://sc.chinaz.com/tupian/bingxueshijie.html" page = requests.get(url=url, headers=headers) page.encoding='utf8' # 先解决乱码问题 page_text=page.text # .text拿到html文本 ex = '<div class="box picblock col3".*?src2="(.*?)".*?</p>.*?</div>' img_url_list = re.findall(ex, page_text, re.S) # 正则匹配 for img_url in img_url_list: img_path = 'tupian/' + img_url.split("/")[-1] # 本地存放的文件路径 request.urlretrieve(url=img_url, filename=img_path) print(img_path , "获取成功")
结果:
tupian/bpic9987_s.jpg 获取成功 tupian/bpic9944_s.jpg 获取成功 tupian/zzpic15470_s.jpg 获取成功 tupian/hpic428_s.jpg 获取成功
...
# 还有一大推就不罗列了
期间遇到一点小坑, 此网站非常的鸡贼, 在网页点检查看到的前端代码并不是真正请求获得的, 而是请求发过去后前端对一些细节做了处理, 所以写正则匹配那一部分的时候不能参照网页检查现实的html
解决办法就是先发请求获得真正请求得到的html文本, 即page_text=page.text .text拿到html文本, 参照真正请求获得的文本写正则, 如此即可
还有一个小坑就是乱码问题, page.encoding='utf8' 即可解决