python全栈开发-re模块（正则表达式）应用（字符串的处理）

一、概述　　

　　就其本质而言，正则表达式（或 RE）是一种小型的、高度专业化的编程语言，要讲他的具体用法要讲一本书！它内嵌在Python中，并通过 re 模块实现。你可以为想要匹配的相应字符串集指定规则；该字符串集可能包含英文语句、e-mail地址、TeX命令或任何你想搞定的东西。然后你可以问诸如“这个字符串匹配该模式吗？”或“在这个字符串中是否有部分匹配该模式呢？”。你也可以使用 RE 以各种方式来修改或分割字符串。今天就来讲讲re模块的最常用的用法。

二、常用的正在表达式符号

'.'        #默认匹配除\n之外的任意一个字符，若指定flag DOTALL,则匹配任意字符
'^'        #匹配字符开头 同 '\A' 
'$'        #匹配字符结尾  同 '\Z'
'*'        #匹配*号前的字符0次或多次
'+'        #匹配前一个字符1次或多次
'?'        #匹配前一个字符1次或0次
'{m}'      #匹配前一个字符m次
'{n,m}'    #匹配前一个字符n到m次
'|'        #匹配|左或|右的字符
'\'        #转义 
[a-z]      #匹配[a-z]
[A-Z]      #匹配[A-Z]
[0-9]      #匹配数字0-9
'\d'       #匹配数字0-9
'\D'       #匹配非数字
'\w'       #匹配字母数字下划线
'\W'       #匹配非字母数字下划线
'\s'       #匹配任意空白字符
'\S'       #匹配非任意空白字符
'[a-z]'    #匹配中括号中的任意字符一次,有个注意点就是‘-’有特殊意义‘[-=+\]’这个括号内的‘-’放中间就会报错
'[^a-z]'　 #匹配非中括号内的字符

#补充一个注意点：
#贪婪匹配:.*代表匹配尽可能多的字符
import re
content='Hello 123 456 World_This is a Regex Demo'

res=re.match('^He.*(\d+).*Demo$',content)
print(res.group(1)) #只打印6,因为.*会尽可能多的匹配,然后后面跟至少一个数字


#非贪婪匹配:?匹配尽可能少的字符
import re
content='Hello 123 456 World_This is a Regex Demo'

res=re.match('^He.*?(\d+).*Demo$',content)
print(res.group(1)) #只打印6,因为.*会尽可能多的匹配,然后后面跟至少一个数字

三、常用的匹配方法

1、re.match(pattern, string, flags=0)

说明：同search,不过在字符串开始处进行匹配,完全可以用search+^代替match

python全栈开发-re模块（正则表达式）应用（字符串的处理）

2、re.search(pattern, string, flags=0)

说明：只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以通过调用group()方法得到匹配的字符串,如果字符串没有匹配，则返回None。

python全栈开发-re模块（正则表达式）应用（字符串的处理）

3、re.findall(pattern, string, flags=0)

说明：把匹配到的字符以列表的形式返回

python全栈开发-re模块（正则表达式）应用（字符串的处理）

4、re.split(pattern, string, maxsplit=0, flags=0)

说明：匹配到的字符被当做列表分割符

python全栈开发-re模块（正则表达式）应用（字符串的处理）

5、re.sub(pattern, repl, string, count=0, flags=0)

说明：匹配字符并替换

python全栈开发-re模块（正则表达式）应用（字符串的处理）

四、常用方法

1、group([group1, ...])

说明：获得一个或多个分组截获的字符串；指定多个参数时将以元组形式返回。group1可以使用编号也可以使用别名；编号0代表整个匹配的子串；不填写参数时，返回group(0)；没有截获字符串的组返回None；截获了多次的组返回最后一次截获的子串。

2、groups(default=None)

说明：以元组形式返回全部分组截获的字符串。相当于调用group(1,2,…last)。default表示没有截获字符串的组以这个值替代，默认为None。这个要跟分组匹配结合起来使用'(...)'

3、groupdict(default=None)

说明：返回以有别名的组的别名为键、以该组截获的子串为值的字典，没有别名的组不包含在内。default含义同上。这个是跟另外一个分组匹配结合起来用的：

python全栈开发-re模块（正则表达式）应用（字符串的处理）

4、span([group])

说明：返回(start(group), end(group))

python全栈开发-re模块（正则表达式）应用（字符串的处理）

5、start([group])

说明：返回指定的组截获的子串在string中的起始索引（子串第一个字符的索引），group默认值为0。

6、end([group])

说明：返回指定的组截获的子串在string中的结束索引（子串最后一个字符的索引+1），group默认值为0。

python全栈开发-re模块（正则表达式）应用（字符串的处理）

7、compile(pattern[, flags])

说明：根据包含正则表达式的字符串创建模式对象

python全栈开发-re模块（正则表达式）应用（字符串的处理）

五、反斜杠的困扰

　　与大多数编程语言相同，正则表达式里使用"\"作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"\"，那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\\\"：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用r"\\"表示。同样，匹配一个数字的"\\d"可以写成r"\d"。有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。

python全栈开发-re模块（正则表达式）应用（字符串的处理）

六、总结

　　1、用r''的方式表示的字符串叫做raw字符串，用于抑制转义。
　　2、正则表达式使用反斜杆（\）来转义特殊字符，使其可以匹配字符本身，而不是指定其他特殊的含义。
　　3、这可能会和python字面意义上的字符串转义相冲突，这也许有些令人费解，比如，要匹配一个反斜杆本身，你也许要用'\\\\'来做为正则表达式的字符串，而字符串里，每个反斜杆都要写成\\。
　　4、你也可以在字符串前加上 r 这个前缀来避免部分疑惑，因为 r 开头的python字符串是 raw 字符串，所以里面的所有字符都不会被转义，比如r'\n'这个字符串就是一个反斜杆加上一字母n，而'\n'我们知道这是个换行符。因此，上面的'\\\\'你也可以写成r'\\'，这样，应该就好理解很多了。

秒客网

python全栈开发-re模块（正则表达式）应用（字符串的处理）

一、概述

二、常用的正在表达式符号

三、常用的匹配方法

四、常用方法

五、反斜杠的困扰

六、总结

相关文章