免二次请求,selenium直接保存图片元素到本地

时间:2024-02-20 15:36:02

Selenium是不少爬虫工程师都会用的一个工具,它对页面元素的属性,文本等的提取都做的不错,但有一个缺点是只能获取到img元素的链接而不是图片二进制(即便在访问时已经加载过了一次图片)。想把指定的img保存到本地,只能使用获取的链接手动下载,不仅多花费了不少时间,而且在某些限制外链的站点还可能遇到下载失败的情况。本文介绍一个直接在selenium中保存图片的方法。

原理其实有点取巧,是通过selenium的execute_script方法,注入一段脚本令网页所有img都转换为base64格式,如此一来图片的二进制信息就被编码为base64写在了<img>的src属性中。代码如下

js = """
        _fetch = function(i,src){
          return fetch(src).then(function(response) {
            if(!response.ok) throw new Error("No image in the response");
            var headers = response.headers;
            var ct = headers.get(\'Content-Type\');
            var contentType = \'image/png\';
            if(ct !== null){
              contentType = ct.split(\';\')[0];
            }
            
            return response.blob().then(function(blob){
              return {
                \'blob\': blob,
                \'mime\': contentType,
                \'i\':i,
              };
            });
          });
        };
        
        _read = function(response){
          return new Promise(function(resolve, reject){
            var blob = new Blob([response.blob], {type : response.mime});
            var reader = new FileReader();
            reader.onload = function(e){
              resolve({\'data\':e.target.result, \'i\':response.i});
            };
            reader.onerror = reject;
            reader.readAsDataURL(blob);
          });
        };
        
        _replace = function(){
            for (var i = 0, len = q.length; i < len; i++) {imgs[q[i].item].src = q[i].data;}
        }
        
        var q = [];
        var imgs = document.querySelectorAll(\'img\');
        for (var i = 0, len = imgs.length; i < len; i++) {
                _fetch(i,imgs[i].src).then(_read).then(function(data){
            q.push({
              \'data\': data.data,
              \'item\': data.i,
            });
          });
            }
        setTimeout(_replace, 1000 );
        """
driver.execute_script(js)

fetch方法请求图片时浏览器会自动读取本地缓存,所以不会发生网络通讯;_replace延迟1秒执行是为了等待队列加载完成。

在driver.get(URL)后执行此脚本,源代码中所有<img>即变为base64编码。再附上一段Python的base64转文件脚本

imgsrc = ""

import base64
def base64img2file(imgsrc: str):
    suffix = imgsrc.split(\';\')[0][11:]
    with open("demo."+suffix, \'wb\') as f:
        f.write(base64.b64decode(imgsrc.split(\',\')[1]))