Python爬虫学习(4): python中re模块中的向后引用以及零宽断言

时间:2022-08-09 12:42:32

  使用小括号的时候,还有很多特定用途的语法。下面列出了最常用的一些:

表4.常用分组语法
分类 代码/语法 说明
捕获 (exp) 匹配exp,并捕获文本到自动命名的组里

(?<name>exp)

{ python:  (?P<name>exp) }

匹配exp,并捕获文本到名称为name的组里,也可以写成(?'name'exp)
(?:exp) 匹配exp,不捕获匹配的文本,也不给此分组分配组号
零宽断言 (?=exp) 匹配exp前面的位置
(?<=exp) 匹配exp后面的位置
(?!exp) 匹配后面跟的不是exp的位置
(?<!exp) 匹配前面不是exp的位置
注释 (?#comment) 这种类型的分组不对正则表达式的处理产生任何影响,用于提供注释让人阅读

1. 后向引用

  使用小括号指定一个子表达式后,匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。默认情况下,每个分组会自动拥有一个组号,规则是:从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推。

呃……其实,组号分配还不像我刚说得那么简单:

  • 分组0对应整个正则表达式
  • 实际上组号分配过程是要从左向右扫描两遍的:第一遍只给未命名组分配,第二遍只给命名组分配--因此所有命名组的组号都大于未命名的组号
  • 你可以使用(?:exp)这样的语法来剥夺一个分组对组号分配的参与权.

  后向引用用于重复搜索前面某个分组匹配的文本。例如,\1代表分组1匹配的文本。难以理解?请看示例:

  \b(\w+)\b\s+\1\b可以用来匹配重复的单词,像go go, 或者kitty kitty。这个表达式首先是一个单词,也就是单词开始处和结束处之间的多于一个的字母或数字(\b(\w+)\b),这个单词会被捕获到编号为1的分组中,然后是1个或几个空白符(\s+),最后是分组1中捕获的内容(也就是前面匹配的那个单词)(\1)。

In [65]: pattern = re.compile(r"\b(\w+)\b\s+\1\b")
In [66]: str = "hello go go hello"
In [67]: re.findall(pattern,str)
Out[67]: ['go']

  你也可以自己指定子表达式的组名。要指定一个子表达式的组名,请使用这样的语法:(?<Word>\w+)(或者把尖括号换成'也行:(?'Word'\w+)),这样就把\w+的组名指定为Word了。要反向引用这个分组捕获的内容,你可以使用\k<Word>,所以上一个例子也可以写成这样:\b(?<Word>\w+)\b\s+\k<Word>\b。

  在python中指定子表示式的格式为: (?P<name>...),向后引用的格式为: (?P=name),所以上述所说的正则表达式在ptyon中正确表达为: r"\b(?P<word>\w+)\b\s+(?P=word)\b"。实例如下:

In [86]: str = "hello go go hello"
In [87]: pattern = re.compile(r"\b(?P<word>\w+)\b\s+(?P=word)\b")
In [88]: re.findall(pattern,str)
Out[88]: ['go']

2. 零宽断言

  接下来的四个用于查找在某些内容(但并不包括这些内容)之前或之后的东西,也就是说它们像\b,^,$那样用于指定一个位置,这个位置应该满足一定的条件(即断言),因此它们也被称为零宽断言。最好还是拿例子来说明吧:

  断言用来声明一个应该为真的事实。正则表达式中只有当断言为真时才会继续进行匹配。

  (?=exp)也叫零宽度正预测先行断言,它断言自身出现的位置的后面能匹配表达式exp。比如\b\w+(?=ing\b),匹配以ing结尾的单词的前面部分(除了ing以外的部分),如查找I'm singing while you're dancing.时,它会匹配sing和danc。

In [100]: str = "I'm singing while you're dancing."
In [101]: pattern = re.compile(r"\b\w+(?=ing\b)")
In [102]: re.findall(pattern,str)
Out[102]: ['sing', 'danc']

  (?<=exp)也叫零宽度正回顾后发断言(- _ - positive lookbehind assertion),它断言自身出现的位置的前面能匹配表达式exp。比如(?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re以外的部分),例如在查找reading a book时,它匹配ading。

In [103]: str = "reading a book"
In [104]: pattern = re.compile(r"(?<=\bre)\w+\b")
In [105]: re.findall(pattern,str)
Out[105]: ['ading']

  下面这个例子同时使用了这两种断言:(?<=\s)\d+(?=\s)匹配以逗号间隔的数字(再次强调,不包括这些逗号)。

In [122]: str = "123,456,789"
In [123]: pattern = re.compile(r"(?<=,)?(\d+)(?=,)?")
In [124]: re.findall(pattern,str)
Out[124]: ['', '', '']

3. 负向零宽断言

  前面我们提到过怎么查找不是某个字符或不在某个字符类里的字符的方法(反义)。但是如果我们只是想要确保某个字符没有出现,但并不想去匹配它时怎么办?例如,如果我们想查找这样的单词--它里面出现了字母q,但是q后面跟的不是字母u,我们可以尝试这样: \b\w*q[^u]\w*\b,匹配包含后面不是字母u的字母q的单词。但是如果多做测试(或者你思维足够敏锐,直接就观察出来了),你会发现,如果q出现在单词的结尾的话,像Iraq,Benq,这个表达式就会出错。这是因为[^u]总要匹配一个字符,所以如果q是单词的最后一个字符的话,后面的[^u]将会匹配q后面的单词分隔符(可能是空格,或者是句号或其它的什么),后面的\w*\b将会匹配下一个单词,于是\b\w*q[^u]\w*\b就能匹配整个Iraq fighting。负向零宽断言能解决这样的问题,因为它只匹配一个位置,并不消费任何字符。现在,我们可以这样来解决这个问题:\b\w*q(?!u)\w*\b。

  零宽度负预测先行断言(?!exp),断言此位置的后面不能匹配表达式exp。例如:\d{3}(?!\d)匹配三位数字,而且这三位数字的后面不能是数字;\b((?!abc)\w)+\b匹配不包含连续字符串abc的单词。

同理,我们可以用(?<!exp),零宽度负回顾后发断言来断言此位置的前面不能匹配表达式exp:(?<![a-z])\d{7}匹配前面不是小写字母的七位数字。

  请详细分析表达式(?<=<(\w+)>).*(?=<\/\1>),这个表达式最能表现零宽断言的真正用途。

  一个更复杂的例子:(?<=<(\w+)>).*(?=<\/\1>)匹配不包含属性的简单HTML标签内里的内容。(?<=<(\w+)>)指定了这样的前缀:被尖括号括起来的单词(比如可能是<span>),然后是.*(任意的字符串),最后是一个后缀(?=<\/\1>)。注意后缀里的\/,它用到了前面提过的字符转义;\1则是一个反向引用,引用的正是捕获的第一组,前面的(\w+)匹配的内容,这样如果前缀实际上是<span>的话,后缀就是</span>了。整个表达式匹配的是<span>和</span>之间的内容(再次提醒,不包括前缀和后缀本身)。

  但是在python中这样做会报 look-behind requires fixed-width pattern 的错误,以也就是在负向零宽断言中不能有不确定长度的表达式:

In [128]: str = "<span> hello world </span>"

In [129]: pattern = re.compile(r"(?<=(<\w+>))(.*)(?=<\/\1>)")
---------------------------------------------------------------------------
error Traceback (most recent call last)
......
error: look-behind requires fixed-width pattern

  为了能够正确匹配需要将\w+改为\w{4}

In [130]: pattern = re.compile(r"(?<=<(\w{4})>)(.*)(?=<\/\1>)")
In [131]: re.findall(pattern,str)
Out[131]: [('span', ' hello world ')]

参考学习地址:http://deerchao.net/tutorials/regex/regex.htm