使用解释器模式实现获取元素 Xpath 路径的算法

时间:2022-09-18 08:58:56

使用解释器模式实现获取元素 Xpath 路径的算法

正文

1.解释器模式

对于一种语言,我们给出其文法表示形式(一种语言中的语法描述工具,用来定义语言的规则),并定义一种解释器,通过这种解释器来解释语言中定义的句子。

定义听起来可能比较抽象,举个例子比如我们常见的网站多语言,要实现多语言我们首先要预定语言的类型,提前设计不同语言的语料库,然后我们会根据配置和统一的变量规则来映射到不同语言。

2.元素的Xpath路径

XPath 用于在 XML 文档中通过元素和属性进行导航。虽然XPath 是用来查找XML节点,但同样可以用来查找HTML文档中的节点,因为HTML和XML结构类似。这里我们只考虑html,即元素在html页面中所处的路径。

那么如何快速获取元素的Xpath路径呢?其实也很简单,我们打开谷歌调试工具:

使用解释器模式实现获取元素 Xpath 路径的算法

使用解释器模式实现获取元素 Xpath 路径的算法

选中Copy XPath即可复制元素的Xpath路径。格式可能长这样:

  1. //*[@id="juejin"]/div[2]/main/div/div[1]/article/div[1] 

获取元素Xpath路径的应用场景很多,比如我们经常使用的python爬虫,利用爬虫框架可以通过Xpath路径很方便额控制页面中的某个dom节点,进而获取想要的数据和元素;又比如我们通过发送元素的Xpath路径给后端,后端可以统计某一功能的使用情况和交互数据;又比如分析用户在网站中浏览的热力分布图,路径画像等等。

3.js实现获取元素的Xpath路径

在实现之前,首先我们分析一下Xpath路径的结构,比如我们有一个页面,元素span的结构如下:

  1. <!DOCTYPE html> 
  2. <html lang="en"
  3. <head> 
  4. <meta charset="UTF-8"
  5. <meta name="viewport" content="width=device-width, initial-scale=1.0"
  6. <meta http-equiv="X-UA-Compatible" content="ie=edge"
  7. <title>Document</title> 
  8. </head> 
  9. <body> 
  10. <div> 
  11. <span>我是徐小夕</span> 
  12. </div> 
  13. </body> 
  14. </html> 

那么我们的Xpath路径可能长这样:

  1. HTML/BODY|HEAD/DIV/SPAN 

从上面可以看出,我们的最右边一个元素都是目标元素,而最左边第一个元素都是最外层容器。要完成这个过程首先我们要通过元素的parentNode来获取当前元素的父元素,直到找到最顶层位置。但我们还需要注意的一点是,每找到上一层我们还要遍历该元素前面的兄弟元素previousSibling,如果这个兄弟元素名字和它后面的元素名字相同,则在元素名上+1.

第一步我们先实现一个遍历同级兄弟元素的方法getSameLevelName:

  1. // 获取兄弟元素名称 
  2. function getSameLevelName(node){ 
  3.     // 如果存在兄弟元素 
  4.     if(node.previousSibling) { 
  5.         let name = '',   // 返回的兄弟元素名称字符串 
  6.            count = 1,    // 紧邻兄弟元素中相同名称元素个数 
  7.            nodeName = node.nodeName, 
  8.            sibling = node.previousSibling; 
  9.         while(sibling){ 
  10.             if(sibling.nodeType == 1 && sibling.nodeType === node.nodeType && sibling.nodeName){ 
  11.                 if(nodeName == sibling.nodeName){ 
  12.                     name += ++count
  13.                 }else { 
  14.                     // 重制相同紧邻节点名称节点个数 
  15.                     count = 1; 
  16.                     // 追加新的节点名称 
  17.                     name += '|' + sibling.nodeName.toUpperCase() 
  18.                 } 
  19.             } 
  20.             sibling = sibling.previousSibling; 
  21.         } 
  22.         return name 
  23.     }else { 
  24.         // 不存在兄弟元素返回'' 
  25.         return '' 
  26.     } 

第二步,遍历文档树。

  1. // XPath解释器 
  2. let Interpreter = (function(){ 
  3. return function(node, wrap){ 
  4. // 路径数组 
  5. let path = [], 
  6. // 如果不存在容器节点,默认为document 
  7. wrap = wrap || document; 
  8. // 如果当前节点等于容器节点 
  9. if(node === wrap) { 
  10. if(wrap.nodeType == 1) { 
  11. path.push(wrap.nodeName.toUpperCase()) 
  12. return path 
  13. // 如果当前节点的父节点不等于容器节点 
  14. if(node.parentNode !== wrap){ 
  15. // 对当前节点的父节点执行遍历操作 
  16. path = arguments.callee(node.parentNode, wrap) 
  17. // 如果当前节点的父元素节点与容器节点相同 
  18. else { 
  19. wrap.nodeType == 1 && path.push(wrap.nodeName.toUpperCase()) 
  20. // 获取元素的兄弟元素的名称统计 
  21. let siblingsNames = getSameLevelName(node) 
  22. if(node.nodeType == 1){ 
  23. path.push(node.nodeName.toUpperCase() + sublingsNames) 
  24. // 返回最终的路径数组结果 
  25. return path 
  26. })() 

有了这两个方法,我们就可以轻松获取元素的XPath路径啦,比如:

  1. let path = Interpreter(document.querySelector('span')) 
  2. console.log(path.join('/')) 

这样会返回开篇的一样的数据结构了.如:HTML/BODY|HEAD/DIV/SPAN

使用解释器模式实现获取元素 Xpath 路径的算法

原文链接:https://mp.weixin.qq.com/s/cpFFsV2XmfAgjV486pB09A