Python正则匹配 -> 模块和基本函数

时间:2021-04-24 22:35:29

Python正则表达式 - re模块


1. findall函数

>>> import re

>>> s='123abc456eabc789'

>>> re.findall(r’abc’,s)

结果:['abc', 'abc']

返回结果是一个列表,中间存放的是符合规则的字符串,如果没有符合规则的字符串被找到,就返回一个列表。


2. compile函数

>>> s='111,222,aaa,bbb,ccc333,444ddd123abc456eabc789'

>>> rule=r’\b\d+\b’

>>> compiled_rule=re.compile(rule)

>>> compiled_rule.findall(s)

结果:['111', '222']

直接使用findall ( rule , target )的方式来匹配字符串,一次两次没什么,如果是多次使用的话,由于正则引擎每次都要把规则解释一遍,而规则的解释又是相当费时间的,所以这样的效率就很低了。如果要多次使用同一规则来进行匹配的话,可以使用re.compile函数来将规则预编译,使用编译过返回的Regular Expression Object或叫做Pattern对象来进行查找。


compile函数还可以指定一些规则标志,来指定一些特殊选项,多个选项之间用 |(位或)连接起来。

I      IGNORECASE 忽略大小写区别

M    MULTILINE  多行匹配。在这个模式下’^’(代表字符串开头)’$’(代表字符串结尾)将能够匹配多行的情况,成为行首和行尾标记。

>>> s=’123 456\n789 012\n345 678’

>>> rc=re.compile(r’^\d+’)    #匹配一个位于开头的数字,没有使用M选项

>>> rc.findall(s)

['123']             #结果只能找到位于第一个行首的’123’


>>> rcm=re.compile(r’^\d+’, re.M)       #使用 M 选项

>>> rcm.findall(s)

['123', '789', '345']  #找到了三个行首的数字


对于‘$’的情况是类似的:

>>> rc=re.compile(r’\d+$’)

>>> rcm=re.compile(r’\d+$’, re.M)

>>> rc.findall(s)

['678']

>>> rcm.findall(s)

['456', '012', '678']

还有一些其他规则标志,参考链接: http://blog.csdn.net/smilelance/article/details/6529950


3. match函数与search函数

match( rule , targetString [,flag] )

search( rule , targetString [,flag] )

第一个参数是正则规则,第二个是目标字符串,第三个是选项(同compile函数的选项)


返回结果不是字符串列表,而是一个MatchObject (如果匹配成功的话),通过操作这个matchObject,来得到更多的信息;如果匹配不成功,它们则返回一个NoneType。

所以,一般的使用规则是:

>>> m=re.match( rule , target )

>>> if m:                       #必需先判断是否成功

        doSomething


两个函数的区别:

match从字符串的开头开始匹配,如果开头位置没有匹配成功,就算失败;而search会跳过开头,继续向后寻找是否有匹配的字符串。


4. 其它函数

参考链接: http://blog.csdn.net/smilelance/article/details/6529950