正则表达式学习总结

时间:2022-11-17 18:48:28

1 正则表达式概念

  • 使用单个字符串来描述匹配一系列符合某个句法规则的字符串
  • 是对字符串操作的一种逻辑公式
  • 应用场景:处理文本和数据
  • 正则表达式过程:依次拿出表达式和文本中的字符比较,如果每一个字符都能匹配,则匹配成功;否则,匹配失效

2  正则表达式语法

2.1  单字符匹配

表达式 含义
. 匹配单个任意字符
[...]         匹配包含在方括号内的任意单个字符
\d  \D 匹配数字 / 非数字
\s  \S 匹配空白字符 / 非空白字符
\w  \W 匹配单词字符[a-zA-Z0-9] / 匹配非单词字符

 

 

 

 

2.2  字符串匹配

表达式 含义 举例
* 匹配前一个字符0次或无限次 [A-Z][a-z]*  匹配以大写字母来头的字母字符串
+ 匹配前一个字符1次或无限次 [_a-zA-Z]+[_\w]*  匹配以字母或下划线开头的有效变量名
? 匹配前一个字符0次或1次 [0-9]?[0-9]  匹配0~99的数字
{m} {m,n} 匹配前一个字符m次或m到n次 [a-zA-Z0-9]{6-10}@163.com
*? / +? / ?? 匹配模式变为非贪婪(尽量少匹配字符)  

 

 

 

 

2.3  边界匹配

表达式 含义
^ 匹配字符串开头
$ 匹配字符串结尾
\A / \Z 指定字符串必须出现在开头 / 结尾

 

 

 

2.4  分组匹配

表达式 含义 举例
| 匹配左右任意一个表达式 [\w]{4,6}@(163|126).com
(abc) 括号中表达式作为一个分组
\<number> 引用编号为number的分组匹配到的字符串 <([\w]+>)[\w]+</\1  ↔  <([\w]+>)[\w]+</[\w]+>
(?p<name>) 给分组命名 <(?p<mark>[\w]+>)[\w]+</(?p=mark)  ↔  <([\w]+>)[\w]+</[\w]+>
(?p=name) 引用命名为name的分组

 

 

 

 

 


3  re模块方法

3.1 re.match函数

re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。

函数语法

re.match(pattern, string, flags=0)

函数参数说明:

参数 描述
pattern 匹配的正则表达式
string 要匹配的字符串。
flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。

 

 

 

匹配成功re.match方法返回一个匹配的对象,否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

匹配对象方法 描述
group(num=0) 匹配的整个表达式的字符串,group() 可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组。
groups() 返回一个包含所有小组字符串的元组,从 1 到 所含的小组号。

 

 

实例

1 import re 2 print(re.match('www', 'www.runoob.com').span())  # 在起始位置匹配
3 print(re.match('com', 'www.runoob.com'))         # 不在起始位置匹配

以上实例运行输出结果为:

(0, 3) None 

实例

 1 #!/usr/bin/python3
 2 import re  3  
 4 line = "Cats are smarter than dogs"
 5  
 6 matchObj = re.match( r'(.*) are (.*?) .*', line, re.M|re.I)  7  
 8 if matchObj:  9    print ("matchObj.group() : ", matchObj.group()) 10    print ("matchObj.group(1) : ", matchObj.group(1)) 11    print ("matchObj.group(2) : ", matchObj.group(2)) 12 else: 13    print ("No match!!")

以上实例执行结果如下:

matchObj.group() : Cats are smarter than dogs matchObj.group(1) : Cats matchObj.group(2) :  smarte

3.2  re.search方法

re.search 扫描整个字符串并返回第一个成功的匹配。

函数语法:

re.search(pattern, string, flags=0)

函数参数说明:

参数 描述
pattern 匹配的正则表达式
string 要匹配的字符串。
flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。

 

 

 

 

匹配成功re.search方法返回一个匹配的对象,否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

匹配对象方法 描述
group(num=0) 匹配的整个表达式的字符串,group() 可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组。
groups() 返回一个包含所有小组字符串的元组,从 1 到 所含的小组号。

 

 

 实例

1 #!/usr/bin/python3
2  
3 import re 4  
5 print(re.search('www', 'www.runoob.com').span())  # 在起始位置匹配
6 print(re.search('com', 'www.runoob.com').span())         # 不在起始位置匹配

以上实例运行输出结果为:

(0, 3) (11, 14) 

实例

 1 #!/usr/bin/python3
 2  
 3 import re  4  
 5 line = "Cats are smarter than dogs";  6  
 7 searchObj = re.search( r'(.*) are (.*?) .*', line, re.M|re.I)  8  
 9 if searchObj: 10    print ("searchObj.group() : ", searchObj.group()) 11    print ("searchObj.group(1) : ", searchObj.group(1)) 12    print ("searchObj.group(2) : ", searchObj.group(2)) 13 else: 14    print ("Nothing found!!")

以上实例执行结果如下:

searchObj.group() : Cats are smarter than dogs searchObj.group(1) : Cats searchObj.group(2) :  smarter

3.3  re.match与re.search的区别

re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。

实例

 1 #!/usr/bin/python3
 2  
 3 import re  4  
 5 line = "Cats are smarter than dogs";  6  
 7 matchObj = re.match( r'dogs', line, re.M|re.I)  8 if matchObj:  9    print ("match --> matchObj.group() : ", matchObj.group()) 10 else: 11    print ("No match!!") 12  
13 matchObj = re.search( r'dogs', line, re.M|re.I) 14 if matchObj: 15    print ("search --> matchObj.group() : ", matchObj.group()) 16 else: 17    print ("No match!!")

以上实例运行结果如下:

No match!! search --> matchObj.group() :  dogs

3.4  检索和替换

Python 的re模块提供了re.sub用于替换字符串中的匹配项。

语法:

re.sub(pattern, repl, string, count=0)

参数:

  • pattern : 正则中的模式字符串。
  • repl : 替换的字符串,也可为一个函数。

  • string : 要被查找替换的原始字符串。
  • count : 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。

实例

 1 #!/usr/bin/python3
 2 import re  3  
 4 phone = "2004-959-559 # 这是一个电话号码"
 5  
 6 # 删除注释
 7 num = re.sub(r'#.*$', "", phone)  8 print ("电话号码 : ", num)  9  
10 # 移除非数字的内容
11 num = re.sub(r'\D', "", phone) 12 print ("电话号码 : ", num)

 以上实例执行结果如下:

电话号码 :  2004-959-559 电话号码 : 2004959559

repl 参数是一个函数

以下实例中将字符串中的匹配的数字乘于 2:

实例

 1 #!/usr/bin/python
 2  
 3 import re  4  
 5 # 将匹配的数字乘于 2
 6 def double(matched):  7     value = int(matched.group('value'))  8     return str(value * 2)  9  
10 s = 'A23G4HFD567'
11 print(re.sub('(?P<value>\d+)', double, s))

 执行输出结果为:

A46G8HFD1134

3.5  compile 函数

compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。

语法格式为:

re.compile(pattern[, flags])

参数:

  • pattern : 一个字符串形式的正则表达式
  • flags 可选,表示匹配模式,比如忽略大小写,多行模式等,具体参数为:
    • re.I 忽略大小写
    • re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
    • re.M 多行模式
    • re.S 即为' . '并且包括换行符在内的任意字符(' . '不包括换行符)
    • re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
    • re.X 为了增加可读性,忽略空格和' # '后面的注释

实例

 1 >>>import re  2 >>> pattern = re.compile(r'\d+')                    # 用于匹配至少一个数字
 3 >>> m = pattern.match('one12twothree34four')        # 查找头部,没有匹配
 4 >>> print m  5 None  6 >>> m = pattern.match('one12twothree34four', 2, 10) # 从'e'的位置开始匹配,没有匹配
 7 >>> print m  8 None  9 >>> m = pattern.match('one12twothree34four', 3, 10) # 从'1'的位置开始匹配,正好匹配
10 >>> print m                                         # 返回一个 Match 对象
11 <_sre.SRE_Match object at 0x10a42aac0>
12 >>> m.group(0)   # 可省略 0
13 '12'
14 >>> m.start(0)   # 可省略 0
15 3
16 >>> m.end(0)     # 可省略 0
17 5
18 >>> m.span(0)    # 可省略 0
19 (3, 5)

 

在上面,当匹配成功时返回一个 Match 对象,其中:

  • group([group1, …]) 方法用于获得一个或多个分组匹配的字符串,当要获得整个匹配的子串时,可直接使用 group()group(0)
  • start([group]) 方法用于获取分组匹配的子串在整个字符串中的起始位置(子串第一个字符的索引),参数默认值为 0;
  • end([group]) 方法用于获取分组匹配的子串在整个字符串中的结束位置(子串最后一个字符的索引+1),参数默认值为 0;
  • span([group]) 方法返回 (start(group), end(group))

再看看一个例子:

实例

 1 >>>import re  2 >>> pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I)   # re.I 表示忽略大小写
 3 >>> m = pattern.match('Hello World Wide Web')  4 >>> print m                               # 匹配成功,返回一个 Match 对象
 5 <_sre.SRE_Match object at 0x10bea83e8>
 6 >>> m.group(0)                            # 返回匹配成功的整个子串
 7 'Hello World'
 8 >>> m.span(0)                             # 返回匹配成功的整个子串的索引
 9 (0, 11) 10 >>> m.group(1)                            # 返回第一个分组匹配成功的子串
11 'Hello'
12 >>> m.span(1)                             # 返回第一个分组匹配成功的子串的索引
13 (0, 5) 14 >>> m.group(2)                            # 返回第二个分组匹配成功的子串
15 'World'
16 >>> m.span(2)                             # 返回第二个分组匹配成功的子串
17 (6, 11) 18 >>> m.groups()                            # 等价于 (m.group(1), m.group(2), ...)
19 ('Hello', 'World') 20 >>> m.group(3)                            # 不存在第三个分组
21 Traceback (most recent call last): 22   File "<stdin>", line 1, in <module>
23 IndexError: no such group
3.6  findall

在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。

注意: match 和 search 是匹配一次 findall 匹配所有。

语法格式为:

findall(string[, pos[, endpos]])

参数:

  • string 待匹配的字符串。
  • pos 可选参数,指定字符串的起始位置,默认为 0。
  • endpos 可选参数,指定字符串的结束位置,默认为字符串的长度。

查找字符串中的所有数字:

实例

1 import re 2  
3 pattern = re.compile(r'\d+')   # 查找数字
4 result1 = pattern.findall('runoob 123 google 456') 5 result2 = pattern.findall('run88oob123google456', 0, 10) 6  
7 print(result1) 8 print(result2)

输出结果:

['123', '456'] ['88', '12']

3.7  re.finditer

和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。

语法格式为:

re.finditer(pattern, string, flags=0)

参数:

参数 描述
pattern 匹配的正则表达式
string 要匹配的字符串。
flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。

 

 

 

实例

1 import re 2  
3 it = re.finditer(r"\d+","12a32bc43jf3") 4 for match in it: 5     print (match.group() )

输出结果:

12 
32 
43 
3

3.8  re.split

split 方法按照能够匹配的子串将字符串分割后返回列表,它的使用形式如下:

re.split(pattern, string[, maxsplit=0, flags=0])

参数:

参数 描述
pattern 匹配的正则表达式
string 要匹配的字符串。
maxsplit 分隔次数,maxsplit=1 分隔一次,默认为 0,不限制次数。
flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。

 

 

 

实例

 1 >>>import re  2 >>> re.split('\W+', 'runoob, runoob, runoob.')  3 ['runoob', 'runoob', 'runoob', '']  4 >>> re.split('(\W+)', ' runoob, runoob, runoob.')  5 ['', ' ', 'runoob', ', ', 'runoob', ', ', 'runoob', '.', '']  6 >>> re.split('\W+', ' runoob, runoob, runoob.', 1)  7 ['', 'runoob, runoob, runoob.']  8  
 9 >>> re.split('a*', 'hello world')   # 对于一个找不到匹配的字符串而言,split 不会对其作出分割
10 ['hello world']

 


 

4  练习中的总结

4.1 贪婪与非贪婪 括号有无

代码

 1 import re
 2 str1 = "<p>1</p><p>2</p>"
 3 pattern = re.compile(r'<p>[\s\S]*</p>') #贪婪
 4 pattern_1 = re.compile(r'<p>[\s\S]*?</p>') #非贪婪
 5 pattern_2 = re.compile(r'<p>([\s\S]*?)</p>') #有括号
 6 r = re.findall(pattern, str1)
 7 r_1 = re.findall(pattern_1, str1)
 8 r_2 = re.findall(pattern_2, str1)
 9 print(r)
10 print(r_1)
11 print(r_2)

输出结果

['<p>1</p><p>2</p>']
['<p>1</p>', '<p>2</p>']
['1', '2']

 4.2 匹配任意正的浮点数

 

1 \d*[\s\S]*\d
2 \d*\.\d|\d*