Python(re模块,正则)

day18

正则表达式用处？

匹配　字符串

 s = 'hello world'

 print(s.find('llo'))#第一个的位置

 ret = s.replace('ll','xx')

 print(ret)

 print(s.split(' '))

执行结果

2

hexxo world

['hello', 'world']

Process finished with exit code 0

以上字符串提供的是完全匹配

模糊匹配，以上方法不可行，需正则表达式

 import re

 ret = re.findall('w\w{2}l','hello world')  # ['worl']

 print(ret)

 ret1 = re.findall('alex', 'aalexsbvesalexfwfawea')#完全匹配，但是没必要   ['alex', 'alex']

 print(ret1)

 print(' ')

 #元字符

 # . 代指所有符号，除换行符\n  通配符　.

 reta = re.findall('w..l', r'hello w  ld') #只能代指任意一个字符 ['w l']

 print(reta)

 print(' ')

 # ^

 retb = re.findall('^h...o', 'hjasdadsdhello') #只在开始匹配，尽管后面有hello []

 print(retb)

 print(' ')

 # $

 retc = re.findall('a..x$','asfsacsxjaoox') #只在最后匹配 ['aoox']

 print(retc)

 print(' ')

 # * 重复匹配

 retd = re.findall('al.*i', 'sanvjalexli')  #[0,+oo] 匹配０到多次  ['alexli']

 print(retd)

 print(' ')

 # + 重复匹配

 rete = re.findall('ab+', 'sanvjah')  #[1,+oo] 匹配1到多次,a后面必须接上b  []

 print(rete)

 print(' ')

 # ? [0,1]

 retf = re.findall('a?b', 'aaabhghabfb') #0个或者１个a,后面接b  ['ab', 'ab', 'b']

 print(retf)

 print(' ')

 # {}

 retg = re.findall('a{5}b', 'vaaaaaab') #5个a  ['aaaaab']

 print(retg)

 reth = re.findall('a{1,3}b', 'vaab') #贪婪匹配，设定一个范围，按最多的取  ['aab']

 print(reth)

执行结果

['worl']

['alex', 'alex']

['w  l']

[]

['aoox']

['alexli']

[]

['ab', 'ab', 'b']

['aaaaab']

['aab']

Process finished with exit code 0

结论：*等于｛０，正无穷｝　+等于｛1,正无穷｝　?等于｛０，１｝

 # 字符集

 reta = re.findall('a[c,d]x', 'adx')   # ['adx']

 print(reta)

 retb = re.findall('[a-z]', 'adx') # a到z都可以匹配   ['a', 'd', 'x']

 print(retb)#['a', 'd', 'x']

 # [] 取消元字符的特殊功能，　但是\ ^ - 例外

 retc = re.findall('[w,*]', 'wad*') # *为一个普通字符      ['w', '*']

 print(retc)

 #但是\ ^ - 例外

 retd = re.findall('[1-9,a-z,A-Z]', '12sfsA') # *为一个普通字符   ['1', '2', 's', 'f', 's', 'A']

 print(retd)

 #  ^放在[]中意味着去反

 rete = re.findall('[^s,A]', '12sfsA') # 除了s和A  ['1', '2', 'f']

 print(rete)

 #  \

 # 反斜杠后面跟元字符去除特殊功能

 #　反斜杠后面跟普通字符实现特殊功能

 print(re.findall('\d{11}', 'scbdhsh3123124326543')) # \d数字[0-9]   ['31231243265']

 print(re.findall('\sasd', 'fak asd')) # \s匹配任何空白字符   [' asd']

 print(re.findall('\w', 'scbhsh 12432'))# \w字母数字 ,相当于a-zA-Z0-9   ['s', 'c', 'b', 'h', 's', 'h', '1', '2', '4', '3', '2']

 print(re.findall(r'I\b', 'hello, I am LI$T'))# \b匹配一个特殊字符的边界    ['I', 'I']

 #匹配出第一个满足的结果

 retf = re.search('sb', 'scbdsbhshsb')# 对象

 print(retf) #<_sre.SRE_Match object; span=(4, 6), match='sb'>

 print(retf.group())

 retg = re.search('a\.g', 'a.gj').group()# 此时的点并不是通配符，只是一个　.    a.g

 print(retg)

执行结果：

['adx']

['a', 'd', 'x']

['w', '*']

['', '', 's', 'f', 's', 'A']

['', '', 'f']

['']

[' asd']

['s', 'c', 'b', 'h', 's', 'h', '', '', '', '', '']

['I', 'I']

<_sre.SRE_Match object; span=(4, 6), match='sb'>

sb

a.g

Process finished with exit code 0

()

 import re

 ret = re.findall(r'\\d', 'abc\de')# r 代表原生字符串,将\\d传给re,而非python解释器

 print(ret)

 m = re.search(r'\bblow', 'blow')

 print(m)

 print(re.search('(as)+', 'adcdasasas').group())#asas   as为一个整体，匹配多个as

 print(re.search('(as)|3', 'as3').group()) #或

执行结果

['\\d']

<_sre.SRE_Match object; span=(0, 4), match='blow'>

asasas

as

Process finished with exit code 0

1 import re

2 ret = re.findall("www.(\w+).com", "www.baidu.com")  #() 组的概念

3 print(ret)

执行结果：

['baidu']

Process finished with exit code 0

正则表达式的方法：

１．findall():所有结果都返回一个列表

２．search():返回匹配到的一个对象，对象可调用group()返回结果

３．match():只在字符串开始进行匹配

 import re

 eta = re.match('asd', 'fhdsasd')#只在字符串开始进行匹配  None

 print(reta)

 retb = re.split('[j,s]', 'sdjksal')# 注意空字符  ['', 'd', 'k', 'al']

 print(retb)

 retc = re.sub('a..x', 's.....b', 'ffghalexbn') # 替换  ffghs.....bbn

 print(retc)

 retd = re.compile('\.com')#规则被编译到对象, 点.不再是通配符

 rete = retd.findall('adcdscd.com')#对象中已经有规则

 print(rete)

执行结果：

None

['', 'd', 'k', 'al']

ffghs.....bbn

['.com']

Process finished with exit code 0

参考：

http://www.cnblogs.com/yuanchenqi/articles/5732581.html

秒客网

Python(re模块,正则)

相关文章