1 正则表达式概念

使用单个字符串来描述匹配一系列符合某个句法规则的字符串
是对字符串操作的一种逻辑公式
应用场景：处理文本和数据
正则表达式过程：依次拿出表达式和文本中的字符比较，如果每一个字符都能匹配，则匹配成功；否则，匹配失效

2 正则表达式语法

2.1 单字符匹配

表达式	含义
.	匹配单个任意字符
[...]	匹配包含在方括号内的任意单个字符
\d \D	匹配数字 / 非数字
\s \S	匹配空白字符 / 非空白字符
\w \W	匹配单词字符[a-zA-Z0-9] / 匹配非单词字符

2.2 字符串匹配

表达式	含义	举例
*	匹配前一个字符0次或无限次	[A-Z][a-z]* 匹配以大写字母来头的字母字符串
+	匹配前一个字符1次或无限次	[_a-zA-Z]+[_\w]* 匹配以字母或下划线开头的有效变量名
?	匹配前一个字符0次或1次	[0-9]?[0-9] 匹配0~99的数字
{m} {m,n}	匹配前一个字符m次或m到n次	[a-zA-Z0-9]{6-10}@163.com
*? / +? / ??	匹配模式变为非贪婪（尽量少匹配字符）

2.3 边界匹配

表达式	含义
^	匹配字符串开头
$	匹配字符串结尾
\A / \Z	指定字符串必须出现在开头 / 结尾

2.4 分组匹配

表达式	含义	举例
\|	匹配左右任意一个表达式	[\w]{4,6}@(163\|126).com
(abc)	括号中表达式作为一个分组	[\w]{4,6}@(163\|126).com
\<number>	引用编号为number的分组匹配到的字符串	<([\w]+>)[\w]+</\1 ↔ <([\w]+>)[\w]+</[\w]+>
(?p<name>)	给分组命名	<(?p<mark>[\w]+>)[\w]+</(?p=mark) ↔ <([\w]+>)[\w]+</[\w]+>
(?p=name)	引用命名为name的分组	<(?p<mark>[\w]+>)[\w]+</(?p=mark) ↔ <([\w]+>)[\w]+</[\w]+>

3 re模块方法

3.1 re.match函数

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

函数语法：

re.match(pattern, string, flags=0)

函数参数说明：

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串。
flags	标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

匹配成功re.match方法返回一个匹配的对象，否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

匹配对象方法	描述
group(num=0)	匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。
groups()	返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

实例

1 import re 2 print(re.match('www', 'www.runoob.com').span())  # 在起始位置匹配
3 print(re.match('com', 'www.runoob.com'))         # 不在起始位置匹配

以上实例运行输出结果为：

(0, 3) None

实例

 1 #!/usr/bin/python3
 2 import re  3  
 4 line = "Cats are smarter than dogs"
 5  
 6 matchObj = re.match( r'(.*) are (.*?) .*', line, re.M|re.I)  7  
 8 if matchObj:  9    print ("matchObj.group() : ", matchObj.group()) 10    print ("matchObj.group(1) : ", matchObj.group(1)) 11    print ("matchObj.group(2) : ", matchObj.group(2)) 12 else: 13    print ("No match!!")

以上实例执行结果如下：

matchObj.group() : Cats are smarter than dogs matchObj.group(1) : Cats matchObj.group(2) :  smarte

3.2 re.search方法

re.search 扫描整个字符串并返回第一个成功的匹配。

函数语法：

re.search(pattern, string, flags=0)

函数参数说明：

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串。
flags	标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

匹配成功re.search方法返回一个匹配的对象，否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

匹配对象方法	描述
group(num=0)	匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。
groups()	返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

实例

1 #!/usr/bin/python3
2  
3 import re 4  
5 print(re.search('www', 'www.runoob.com').span())  # 在起始位置匹配
6 print(re.search('com', 'www.runoob.com').span())         # 不在起始位置匹配

以上实例运行输出结果为：

(0, 3) (11, 14)

实例

 1 #!/usr/bin/python3
 2  
 3 import re  4  
 5 line = "Cats are smarter than dogs";  6  
 7 searchObj = re.search( r'(.*) are (.*?) .*', line, re.M|re.I)  8  
 9 if searchObj: 10    print ("searchObj.group() : ", searchObj.group()) 11    print ("searchObj.group(1) : ", searchObj.group(1)) 12    print ("searchObj.group(2) : ", searchObj.group(2)) 13 else: 14    print ("Nothing found!!")

以上实例执行结果如下：

searchObj.group() : Cats are smarter than dogs searchObj.group(1) : Cats searchObj.group(2) :  smarter

3.3 re.match与re.search的区别

re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。

实例

 1 #!/usr/bin/python3
 2  
 3 import re  4  
 5 line = "Cats are smarter than dogs";  6  
 7 matchObj = re.match( r'dogs', line, re.M|re.I)  8 if matchObj:  9    print ("match --> matchObj.group() : ", matchObj.group()) 10 else: 11    print ("No match!!") 12  
13 matchObj = re.search( r'dogs', line, re.M|re.I) 14 if matchObj: 15    print ("search --> matchObj.group() : ", matchObj.group()) 16 else: 17    print ("No match!!")

以上实例运行结果如下：

No match!! search --> matchObj.group() :  dogs

3.4 检索和替换

Python 的re模块提供了re.sub用于替换字符串中的匹配项。

语法：

re.sub(pattern, repl, string, count=0)

参数：

pattern : 正则中的模式字符串。
repl : 替换的字符串，也可为一个函数。
string : 要被查找替换的原始字符串。
count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。

实例

 1 #!/usr/bin/python3
 2 import re  3  
 4 phone = "2004-959-559 # 这是一个电话号码"
 5  
 6 # 删除注释
 7 num = re.sub(r'#.*$', "", phone)  8 print ("电话号码 : ", num)  9  
10 # 移除非数字的内容
11 num = re.sub(r'\D', "", phone) 12 print ("电话号码 : ", num)

以上实例执行结果如下：

电话号码 :  2004-959-559 电话号码 : 2004959559

repl 参数是一个函数

以下实例中将字符串中的匹配的数字乘于 2：

实例

 1 #!/usr/bin/python
 2  
 3 import re  4  
 5 # 将匹配的数字乘于 2
 6 def double(matched):  7     value = int(matched.group('value'))  8     return str(value * 2)  9  
10 s = 'A23G4HFD567'
11 print(re.sub('(?P<value>\d+)', double, s))

执行输出结果为：

A46G8HFD1134

3.5 compile 函数

compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。

语法格式为：

re.compile(pattern[, flags])

参数：

pattern : 一个字符串形式的正则表达式
flags 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为：
- re.I 忽略大小写
- re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
- re.M 多行模式
- re.S 即为' . '并且包括换行符在内的任意字符（' . '不包括换行符）
- re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
- re.X 为了增加可读性，忽略空格和' # '后面的注释

实例

 1 >>>import re  2 >>> pattern = re.compile(r'\d+')                    # 用于匹配至少一个数字
 3 >>> m = pattern.match('one12twothree34four')        # 查找头部，没有匹配
 4 >>> print m  5 None  6 >>> m = pattern.match('one12twothree34four', 2, 10) # 从'e'的位置开始匹配，没有匹配
 7 >>> print m  8 None  9 >>> m = pattern.match('one12twothree34four', 3, 10) # 从'1'的位置开始匹配，正好匹配
10 >>> print m                                         # 返回一个 Match 对象
11 <_sre.SRE_Match object at 0x10a42aac0>
12 >>> m.group(0)   # 可省略 0
13 '12'
14 >>> m.start(0)   # 可省略 0
15 3
16 >>> m.end(0)     # 可省略 0
17 5
18 >>> m.span(0)    # 可省略 0
19 (3, 5)

在上面，当匹配成功时返回一个 Match 对象，其中：

group([group1, …]) 方法用于获得一个或多个分组匹配的字符串，当要获得整个匹配的子串时，可直接使用 group() 或 group(0)；
start([group]) 方法用于获取分组匹配的子串在整个字符串中的起始位置（子串第一个字符的索引），参数默认值为 0；
end([group]) 方法用于获取分组匹配的子串在整个字符串中的结束位置（子串最后一个字符的索引+1），参数默认值为 0；
span([group]) 方法返回 (start(group), end(group))。

再看看一个例子：

实例

 1 >>>import re  2 >>> pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I)   # re.I 表示忽略大小写
 3 >>> m = pattern.match('Hello World Wide Web')  4 >>> print m                               # 匹配成功，返回一个 Match 对象
 5 <_sre.SRE_Match object at 0x10bea83e8>
 6 >>> m.group(0)                            # 返回匹配成功的整个子串
 7 'Hello World'
 8 >>> m.span(0)                             # 返回匹配成功的整个子串的索引
 9 (0, 11) 10 >>> m.group(1)                            # 返回第一个分组匹配成功的子串
11 'Hello'
12 >>> m.span(1)                             # 返回第一个分组匹配成功的子串的索引
13 (0, 5) 14 >>> m.group(2)                            # 返回第二个分组匹配成功的子串
15 'World'
16 >>> m.span(2)                             # 返回第二个分组匹配成功的子串
17 (6, 11) 18 >>> m.groups()                            # 等价于 (m.group(1), m.group(2), ...)
19 ('Hello', 'World') 20 >>> m.group(3)                            # 不存在第三个分组
21 Traceback (most recent call last): 22   File "<stdin>", line 1, in <module>
23 IndexError: no such group

3.6 findall

在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。

注意： match 和 search 是匹配一次 findall 匹配所有。

语法格式为：

findall(string[, pos[, endpos]])

参数：

string 待匹配的字符串。
pos 可选参数，指定字符串的起始位置，默认为 0。
endpos 可选参数，指定字符串的结束位置，默认为字符串的长度。

查找字符串中的所有数字：

实例

1 import re 2  
3 pattern = re.compile(r'\d+')   # 查找数字
4 result1 = pattern.findall('runoob 123 google 456') 5 result2 = pattern.findall('run88oob123google456', 0, 10) 6  
7 print(result1) 8 print(result2)

输出结果：

['123', '456'] ['88', '12']

3.7 re.finditer

和 findall 类似，在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。

语法格式为：

re.finditer(pattern, string, flags=0)

参数：

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串。
flags	标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

实例

1 import re 2  
3 it = re.finditer(r"\d+","12a32bc43jf3") 4 for match in it: 5     print (match.group() )

输出结果：

3.8 re.split

split 方法按照能够匹配的子串将字符串分割后返回列表，它的使用形式如下：

re.split(pattern, string[, maxsplit=0, flags=0])

参数：

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串。
maxsplit	分隔次数，maxsplit=1 分隔一次，默认为 0，不限制次数。
flags	标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

实例

 1 >>>import re  2 >>> re.split('\W+', 'runoob, runoob, runoob.')  3 ['runoob', 'runoob', 'runoob', '']  4 >>> re.split('(\W+)', ' runoob, runoob, runoob.')  5 ['', ' ', 'runoob', ', ', 'runoob', ', ', 'runoob', '.', '']  6 >>> re.split('\W+', ' runoob, runoob, runoob.', 1)  7 ['', 'runoob, runoob, runoob.']  8  
 9 >>> re.split('a*', 'hello world')   # 对于一个找不到匹配的字符串而言，split 不会对其作出分割
10 ['hello world']

4 练习中的总结

4.1 贪婪与非贪婪括号有无

代码

 1 import re
 2 str1 = "<p>1</p><p>2</p>"
 3 pattern = re.compile(r'<p>[\s\S]*</p>') #贪婪
 4 pattern_1 = re.compile(r'<p>[\s\S]*?</p>') #非贪婪
 5 pattern_2 = re.compile(r'<p>([\s\S]*?)</p>') #有括号
 6 r = re.findall(pattern, str1)
 7 r_1 = re.findall(pattern_1, str1)
 8 r_2 = re.findall(pattern_2, str1)
 9 print(r)
10 print(r_1)
11 print(r_2)

输出结果

['<p>1</p><p>2</p>']
['<p>1</p>', '<p>2</p>']
['1', '2']

4.2 匹配任意正的浮点数

1 \d*[\s\S]*\d
2 \d*\.\d|\d*

秒客网

正则表达式学习总结

1 正则表达式概念

2.2 字符串匹配

2.3 边界匹配

实例

实例

实例

相关文章