1 正则表达式概念
- 使用单个字符串来描述匹配一系列符合某个句法规则的字符串
- 是对字符串操作的一种逻辑公式
- 应用场景:处理文本和数据
- 正则表达式过程:依次拿出表达式和文本中的字符比较,如果每一个字符都能匹配,则匹配成功;否则,匹配失效
2 正则表达式语法
2.1 单字符匹配
表达式 | 含义 |
. | 匹配单个任意字符 |
[...] | 匹配包含在方括号内的任意单个字符 |
\d \D | 匹配数字 / 非数字 |
\s \S | 匹配空白字符 / 非空白字符 |
\w \W | 匹配单词字符[a-zA-Z0-9] / 匹配非单词字符 |
2.2 字符串匹配
表达式 | 含义 | 举例 |
* | 匹配前一个字符0次或无限次 | [A-Z][a-z]* 匹配以大写字母来头的字母字符串 |
+ | 匹配前一个字符1次或无限次 | [_a-zA-Z]+[_\w]* 匹配以字母或下划线开头的有效变量名 |
? | 匹配前一个字符0次或1次 | [0-9]?[0-9] 匹配0~99的数字 |
{m} {m,n} | 匹配前一个字符m次或m到n次 | [a-zA-Z0-9]{6-10}@163.com |
*? / +? / ?? | 匹配模式变为非贪婪(尽量少匹配字符) |
2.3 边界匹配
表达式 | 含义 |
^ | 匹配字符串开头 |
$ | 匹配字符串结尾 |
\A / \Z | 指定字符串必须出现在开头 / 结尾 |
2.4 分组匹配
表达式 | 含义 | 举例 |
| | 匹配左右任意一个表达式 | [\w]{4,6}@(163|126).com |
(abc) | 括号中表达式作为一个分组 | |
\<number> | 引用编号为number的分组匹配到的字符串 | <([\w]+>)[\w]+</\1 ↔ <([\w]+>)[\w]+</[\w]+> |
(?p<name>) | 给分组命名 | <(?p<mark>[\w]+>)[\w]+</(?p=mark) ↔ <([\w]+>)[\w]+</[\w]+> |
(?p=name) | 引用命名为name的分组 |
3 re模块方法
3.1 re.match函数
re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。
函数语法:
re.match(pattern, string, flags=0)
函数参数说明:
参数 | 描述 |
---|---|
pattern | 匹配的正则表达式 |
string | 要匹配的字符串。 |
flags | 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。 |
匹配成功re.match方法返回一个匹配的对象,否则返回None。
我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。
匹配对象方法 | 描述 |
---|---|
group(num=0) | 匹配的整个表达式的字符串,group() 可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组。 |
groups() | 返回一个包含所有小组字符串的元组,从 1 到 所含的小组号。 |
实例
1 import re 2 print(re.match('www', 'www.runoob.com').span()) # 在起始位置匹配
3 print(re.match('com', 'www.runoob.com')) # 不在起始位置匹配
以上实例运行输出结果为:
(0, 3) None
实例
1 #!/usr/bin/python3
2 import re 3
4 line = "Cats are smarter than dogs"
5
6 matchObj = re.match( r'(.*) are (.*?) .*', line, re.M|re.I) 7
8 if matchObj: 9 print ("matchObj.group() : ", matchObj.group()) 10 print ("matchObj.group(1) : ", matchObj.group(1)) 11 print ("matchObj.group(2) : ", matchObj.group(2)) 12 else: 13 print ("No match!!")
以上实例执行结果如下:
matchObj.group() : Cats are smarter than dogs matchObj.group(1) : Cats matchObj.group(2) : smarte
3.2 re.search方法
re.search 扫描整个字符串并返回第一个成功的匹配。
函数语法:
re.search(pattern, string, flags=0)
函数参数说明:
参数 | 描述 |
pattern | 匹配的正则表达式 |
string | 要匹配的字符串。 |
flags | 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。 |
匹配成功re.search方法返回一个匹配的对象,否则返回None。
我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。
匹配对象方法 | 描述 |
group(num=0) | 匹配的整个表达式的字符串,group() 可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组。 |
groups() | 返回一个包含所有小组字符串的元组,从 1 到 所含的小组号。 |
实例
1 #!/usr/bin/python3
2
3 import re 4
5 print(re.search('www', 'www.runoob.com').span()) # 在起始位置匹配
6 print(re.search('com', 'www.runoob.com').span()) # 不在起始位置匹配
以上实例运行输出结果为:
(0, 3) (11, 14)
实例
1 #!/usr/bin/python3
2
3 import re 4
5 line = "Cats are smarter than dogs"; 6
7 searchObj = re.search( r'(.*) are (.*?) .*', line, re.M|re.I) 8
9 if searchObj: 10 print ("searchObj.group() : ", searchObj.group()) 11 print ("searchObj.group(1) : ", searchObj.group(1)) 12 print ("searchObj.group(2) : ", searchObj.group(2)) 13 else: 14 print ("Nothing found!!")
以上实例执行结果如下:
searchObj.group() : Cats are smarter than dogs searchObj.group(1) : Cats searchObj.group(2) : smarter
3.3 re.match与re.search的区别
re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。
实例
1 #!/usr/bin/python3
2
3 import re 4
5 line = "Cats are smarter than dogs"; 6
7 matchObj = re.match( r'dogs', line, re.M|re.I) 8 if matchObj: 9 print ("match --> matchObj.group() : ", matchObj.group()) 10 else: 11 print ("No match!!") 12
13 matchObj = re.search( r'dogs', line, re.M|re.I) 14 if matchObj: 15 print ("search --> matchObj.group() : ", matchObj.group()) 16 else: 17 print ("No match!!")
以上实例运行结果如下:
No match!! search --> matchObj.group() : dogs
3.4 检索和替换
Python 的re模块提供了re.sub用于替换字符串中的匹配项。
语法:
re.sub(pattern, repl, string, count=0)
参数:
- pattern : 正则中的模式字符串。
-
repl : 替换的字符串,也可为一个函数。
- string : 要被查找替换的原始字符串。
- count : 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。
实例
1 #!/usr/bin/python3
2 import re 3
4 phone = "2004-959-559 # 这是一个电话号码"
5
6 # 删除注释
7 num = re.sub(r'#.*$', "", phone) 8 print ("电话号码 : ", num) 9
10 # 移除非数字的内容
11 num = re.sub(r'\D', "", phone) 12 print ("电话号码 : ", num)
以上实例执行结果如下:
电话号码 : 2004-959-559 电话号码 : 2004959559
repl 参数是一个函数
以下实例中将字符串中的匹配的数字乘于 2:
实例
1 #!/usr/bin/python
2
3 import re 4
5 # 将匹配的数字乘于 2
6 def double(matched): 7 value = int(matched.group('value')) 8 return str(value * 2) 9
10 s = 'A23G4HFD567'
11 print(re.sub('(?P<value>\d+)', double, s))
执行输出结果为:
A46G8HFD1134
3.5 compile 函数
compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。
语法格式为:
re.compile(pattern[, flags])
参数:
- pattern : 一个字符串形式的正则表达式
- flags 可选,表示匹配模式,比如忽略大小写,多行模式等,具体参数为:
-
- re.I 忽略大小写
- re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
- re.M 多行模式
- re.S 即为' . '并且包括换行符在内的任意字符(' . '不包括换行符)
- re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
- re.X 为了增加可读性,忽略空格和' # '后面的注释
实例
1 >>>import re 2 >>> pattern = re.compile(r'\d+') # 用于匹配至少一个数字
3 >>> m = pattern.match('one12twothree34four') # 查找头部,没有匹配
4 >>> print m 5 None 6 >>> m = pattern.match('one12twothree34four', 2, 10) # 从'e'的位置开始匹配,没有匹配
7 >>> print m 8 None 9 >>> m = pattern.match('one12twothree34four', 3, 10) # 从'1'的位置开始匹配,正好匹配
10 >>> print m # 返回一个 Match 对象
11 <_sre.SRE_Match object at 0x10a42aac0>
12 >>> m.group(0) # 可省略 0
13 '12'
14 >>> m.start(0) # 可省略 0
15 3
16 >>> m.end(0) # 可省略 0
17 5
18 >>> m.span(0) # 可省略 0
19 (3, 5)
在上面,当匹配成功时返回一个 Match 对象,其中:
group([group1, …])
方法用于获得一个或多个分组匹配的字符串,当要获得整个匹配的子串时,可直接使用group()
或group(0)
;start([group])
方法用于获取分组匹配的子串在整个字符串中的起始位置(子串第一个字符的索引),参数默认值为 0;end([group])
方法用于获取分组匹配的子串在整个字符串中的结束位置(子串最后一个字符的索引+1),参数默认值为 0;span([group])
方法返回(start(group), end(group))
。
再看看一个例子:
实例
1 >>>import re 2 >>> pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I) # re.I 表示忽略大小写
3 >>> m = pattern.match('Hello World Wide Web') 4 >>> print m # 匹配成功,返回一个 Match 对象
5 <_sre.SRE_Match object at 0x10bea83e8>
6 >>> m.group(0) # 返回匹配成功的整个子串
7 'Hello World'
8 >>> m.span(0) # 返回匹配成功的整个子串的索引
9 (0, 11) 10 >>> m.group(1) # 返回第一个分组匹配成功的子串
11 'Hello'
12 >>> m.span(1) # 返回第一个分组匹配成功的子串的索引
13 (0, 5) 14 >>> m.group(2) # 返回第二个分组匹配成功的子串
15 'World'
16 >>> m.span(2) # 返回第二个分组匹配成功的子串
17 (6, 11) 18 >>> m.groups() # 等价于 (m.group(1), m.group(2), ...)
19 ('Hello', 'World') 20 >>> m.group(3) # 不存在第三个分组
21 Traceback (most recent call last): 22 File "<stdin>", line 1, in <module>
23 IndexError: no such group
在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。
注意: match 和 search 是匹配一次 findall 匹配所有。
语法格式为:
findall(string[, pos[, endpos]])
参数:
- string 待匹配的字符串。
- pos 可选参数,指定字符串的起始位置,默认为 0。
- endpos 可选参数,指定字符串的结束位置,默认为字符串的长度。
查找字符串中的所有数字:
实例
1 import re 2
3 pattern = re.compile(r'\d+') # 查找数字
4 result1 = pattern.findall('runoob 123 google 456') 5 result2 = pattern.findall('run88oob123google456', 0, 10) 6
7 print(result1) 8 print(result2)
输出结果:
['123', '456'] ['88', '12']
3.7 re.finditer
和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。
语法格式为:
re.finditer(pattern, string, flags=0)
参数:
参数 | 描述 |
pattern | 匹配的正则表达式 |
string | 要匹配的字符串。 |
flags | 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。 |
实例
1 import re 2
3 it = re.finditer(r"\d+","12a32bc43jf3") 4 for match in it: 5 print (match.group() )
输出结果:
12
32
43
3
3.8 re.split
split 方法按照能够匹配的子串将字符串分割后返回列表,它的使用形式如下:
re.split(pattern, string[, maxsplit=0, flags=0])
参数:
参数 | 描述 |
pattern | 匹配的正则表达式 |
string | 要匹配的字符串。 |
maxsplit | 分隔次数,maxsplit=1 分隔一次,默认为 0,不限制次数。 |
flags | 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。 |
实例
1 >>>import re 2 >>> re.split('\W+', 'runoob, runoob, runoob.') 3 ['runoob', 'runoob', 'runoob', ''] 4 >>> re.split('(\W+)', ' runoob, runoob, runoob.') 5 ['', ' ', 'runoob', ', ', 'runoob', ', ', 'runoob', '.', ''] 6 >>> re.split('\W+', ' runoob, runoob, runoob.', 1) 7 ['', 'runoob, runoob, runoob.'] 8
9 >>> re.split('a*', 'hello world') # 对于一个找不到匹配的字符串而言,split 不会对其作出分割
10 ['hello world']
4.1 贪婪与非贪婪 括号有无
代码
1 import re 2 str1 = "<p>1</p><p>2</p>" 3 pattern = re.compile(r'<p>[\s\S]*</p>') #贪婪 4 pattern_1 = re.compile(r'<p>[\s\S]*?</p>') #非贪婪 5 pattern_2 = re.compile(r'<p>([\s\S]*?)</p>') #有括号 6 r = re.findall(pattern, str1) 7 r_1 = re.findall(pattern_1, str1) 8 r_2 = re.findall(pattern_2, str1) 9 print(r) 10 print(r_1) 11 print(r_2)
输出结果
['<p>1</p><p>2</p>'] ['<p>1</p>', '<p>2</p>'] ['1', '2']
4.2 匹配任意正的浮点数
1 \d*[\s\S]*\d 2 \d*\.\d|\d*