Python正则表达式 - re模块
1. findall函数
>>> import re
>>> s='123abc456eabc789'
>>> re.findall(r’abc’,s)
结果:['abc', 'abc']返回结果是一个列表,中间存放的是符合规则的字符串,如果没有符合规则的字符串被找到,就返回一个空列表。
2. compile函数
>>> s='111,222,aaa,bbb,ccc333,444ddd123abc456eabc789'
>>> rule=r’\b\d+\b’
>>> compiled_rule=re.compile(rule)
>>> compiled_rule.findall(s)
结果:['111', '222']直接使用findall ( rule , target )的方式来匹配字符串,一次两次没什么,如果是多次使用的话,由于正则引擎每次都要把规则解释一遍,而规则的解释又是相当费时间的,所以这样的效率就很低了。如果要多次使用同一规则来进行匹配的话,可以使用re.compile函数来将规则预编译,使用编译过返回的Regular Expression Object或叫做Pattern对象来进行查找。
compile函数还可以指定一些规则标志,来指定一些特殊选项,多个选项之间用 ’|’(位或)连接起来。
I IGNORECASE 忽略大小写区别
M MULTILINE 多行匹配。在这个模式下’^’(代表字符串开头)和’$’(代表字符串结尾)将能够匹配多行的情况,成为行首和行尾标记。
>>> s=’123 456\n789 012\n345 678’
>>> rc=re.compile(r’^\d+’) #匹配一个位于开头的数字,没有使用M选项
>>> rc.findall(s)
['123'] #结果只能找到位于第一个行首的’123’
>>> rcm=re.compile(r’^\d+’, re.M) #使用 M 选项
>>> rcm.findall(s)
['123', '789', '345'] #找到了三个行首的数字
>>> rc=re.compile(r’\d+$’)
>>> rcm=re.compile(r’\d+$’, re.M)
>>> rc.findall(s)
['678']
>>> rcm.findall(s)
['456', '012', '678']
还有一些其他规则标志,参考链接: http://blog.csdn.net/smilelance/article/details/65299503. match函数与search函数
match( rule , targetString [,flag] )
search( rule , targetString [,flag] )
第一个参数是正则规则,第二个是目标字符串,第三个是选项(同compile函数的选项)返回结果不是字符串列表,而是一个MatchObject (如果匹配成功的话),通过操作这个matchObject,来得到更多的信息;如果匹配不成功,它们则返回一个NoneType。
所以,一般的使用规则是:
>>> m=re.match( rule , target )
>>> if m: #必需先判断是否成功
doSomething
两个函数的区别:
match从字符串的开头开始匹配,如果开头位置没有匹配成功,就算失败;而search会跳过开头,继续向后寻找是否有匹配的字符串。
4. 其它函数
参考链接: http://blog.csdn.net/smilelance/article/details/6529950