1、正则表达式规则
2、Python正则常用模块
2.1、re.match与re.search
函数说明:re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。
re.search 扫描整个字符串并返回第一个成功的匹配。
函数语法:re.match(pattern, string, flags=0)
re.search(pattern, string, flags=0)
pattern 匹配的正则表达式
string 要匹配的字符串
flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等
re.I 使匹配对大小写不敏感
re.L 做本地化识别(locale-aware)匹配
re.M 多行匹配,影响 ^ 和 $
re.S 使 . 匹配包括换行在内的所有字符
re.U 根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.X 该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。
函数方法:
group(num=0) 匹配的整个表达式的字符串,group() 可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组。
groups() 返回一个包含所有小组字符串的元组,从 1 到 所含的小组号。
groupdict() 返回一个字典,包含所有经命名的匹配子群,键值是子群名。
start() 返回匹配开始的位置
end() 返回匹配结束的位置
span() 返回一个元组包含匹配 (开始,结束) 的位置
re.match与re.search的区别
re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。
2.2、re.sub与re.subn()
函数说明:re.sub用于替换字符串中的匹配项。 re.subn() 返回替换次数 函数语法:re.sub(pattern, repl, string, count=0) re.subn(pattern, repl, string, count=0, flags=0) pattern 正则中的模式字符串。 repl 替换的字符串,也可为一个函数。 string 要被查找替换的原始字符串。 count 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。 flags 同re.match
2.3、re.split
函数说明:split 方法按照能够匹配的子串将字符串分割后返回列表 函数语法:re.split(pattern, string[, maxsplit=0, flags=0]) pattern 匹配的正则表达式 string 要匹配的字符串。 maxsplit 分隔次数,maxsplit=1 分隔一次,默认为 0,不限制次数。 flags 同re.match
2.4、re.compile
函数说明:compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。
函数语法:re.compile(pattern[, flags])
pattern 正则中的模式字符串。
flags 同re.match
2.5、re.findall
函数说明:在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。
注意: match 和 search 是匹配一次 findall 匹配所有。
函数语法:findall(string[, pos[, endpos]])
string 待匹配的字符串。
pos 可选参数,指定字符串的起始位置,默认为 0。
endpos 可选参数,指定字符串的结束位置,默认为字符串的长度。
2.6、re.finditer
函数说明:和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。 函数语法:re.finditer(pattern, string, flags=0) pattern 匹配的正则表达式 string 要匹配的字符串。 flags 同re.match