python模块学习之re

正则表达式本质就是表示某种规则的一串字符。

匹配的规则叫做模式（pattern），模式作用于对象。

模式和对象可以是Unicode或者字节，但是，不能够混用，比如：模式为Unicode，对象为字节，像这样就是错误的！

当有替换需求时，替换字符串的类型也要注意和模式、对象的类型保持一致。（要么都是Unicode，要么都是字节）

下面来谈谈反斜杠（\），我们知道\+字符，可能表示一种特殊的含义，当然也可能表示\和字符2个普通字符。

比如：\d表示数字，\k表示\和k这2个普通字符。

在python中字符串分为2种：

原始字符串(raw string)和字符串

之所以搞个原始字符串，就是来应对转义字符这个大麻烦！

比如：我想表示\和b，如果我用惯性思维写成'\b'，那么就傻逼了！因为\将b设置为有特殊含义的字符。

这时必须写成'\\b'，但是这种写法太low了!于是搞个原始字符串的东西，前面的可以设置成r'\b'。

虽然加了个r但是相比'\\b'的写法，友好了不少！

所以：'\\\\'和r'\\'是等效的，表示普通字符\。

总结：如果字符中没有\，原始字符串就和字符串一样。

>>> re.findall('a','abkk') ['a'] >>> re.findall(r'a','abkk') ['a']

在正则表达式后面加个?，表示非贪婪匹配（最短匹配）。

re模块中常用的方法：

1、compile()

编译正则表达式的模式为对象模式，这样可以提高执行效率。

语法：

re.compile(r'pattern',[flags])

其中r的含义是不转义字符串，也就是说\t就是\和t。

例如：

import re
hello = "hello,i am tom,nice to konw u."
a = re.compile(r'to')
b = a.findall(hello)

['to','to']

2、match()

匹配的字符串必须按照pattern开头，否则匹配不到。

语法：

re.match(pattern,string,[flags])

例如：

>>> a = "hello"
>>> b = re.match(r'l',a)
>>> b
>>> c = re.match(r'he',a)
>>> c
<_sre.SRE_Match object; span=(0, 2), match='he'>

3、search()

匹配到第一个pattern就返回结果。

语法：

re.search(pattern,string,[flags])

例如：

>>> a = "hellohe"
>>> c = re.search(r'he',a).group()
>>> c
'he'

注：group()方法用来返回一个字符串，因为search()方法返回的是一个match对象。

如果正则中的pattern包含引号，那么需要注意使用\

>>> a = re.search(r'__version__ = [\'"]([^\'"]+)[\'"]',"__version__ = '3.7.0'").group(1)
>>> a
'3.7.0'

单引号中再次使用单引号，必然会造成错误，这个时候，需要在单引号前面加个转义字符（\）。

4、findall()

匹配所有的pattern并返回一个列表。

语法：

re.findall(pattern,string,[flags])

例如：

>>> a = "hello12kk32"
>>> b = re.findall(r'\d+',a)
>>> b
['12', '32']

python模块学习之re

5、sub()

匹配并替换。

语法：

re.sub(pattern,repl,string,count)

例子：

import re
text = "JGood is a handsome boy, he is cool, clever, and so on..."
print(re.sub(r'\s+', '-', text))
执行结果如下：
JGood-is-a-handsome-boy,-he-is-cool,-clever,-and-so-on...

其中第二个参数是替换后的字符串；本例中为'-'

第四个参数指替换个数。默认为0，表示每个匹配项都替换。

6.re.escape(pattern)

脱离除ascii英文、数字、下划线之外的字符串。

在处理正则时非常有效。

>>> re.escape('www.baidu.com')
'www\\.baidu\\.com'

秒客网

python模块学习之re

相关文章