python中正则表达式与re 模块

1. 9.7 正则表达式与 re 模块

一个正则表达式就是一个用来表示某种模式的字符串。它能帮助你方便的检查一个字符串是否与某种模式匹配。

re 模块使 Python 语言拥有全部的正则表达式功能。 compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。 re 模块也提供了与这些方法功能完全一致的函数，这些函数使用一个模式字符串做为它们的第一个参数。

要精通正则表达式并不容易，而且这本书的主题也不是正则表达式。本节的目的是教会你在 Python中使用正则表达式。如果要全面的了解正则表达式，我推荐Jeffrey Friedl写的《Mastering Regular Expressions》这本书。这本书全面透彻的讲解了正则表达式的方方面面。

1.1. 9.7.1 模式字符串语法

模式字符串使用特殊的语法来表示一个正则表达式：

字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。

多数字母和数字前加一个反斜杠时会拥有不同的含义。

标点符号只有被转义时才匹配自身，否则它们表示特殊的含义。

反斜杠本身需要使用反斜杠转义。

由于正则表达式通常都包含反斜杠，所以你最好使用原始字符串来表示它们。模式元素(如 r'/t'，等价于'//t')匹配相应的特殊字符。

表 9-2 列出了正则表达式模式语法中的特殊元素。如果你使用模式的同时提供了可选的标志参数，某些模式元素的含义会改变。本节后面会提到这些可选的标志。

表 9-2 正则表达式模式语法

元素            含义
.               匹配除换行外的任意字符(如果 DOTALL 则连换行也匹配)
^               匹配字符串开始(如果MULTILINE，也匹配换行符之后)
$               匹配字符串结束(如果MULTILINE，也匹配换行符之前)
*               匹配0个或更多个由前面的正则表达式定义的片段，贪婪方式(尽可能多的匹配)
+               匹配1个或更多个由前面的正则表达式定义的片段，贪婪方式
?               匹配0个或1个由前面的正则表达式定义的片段，贪婪方式
*? , +?, ??     非贪婪版本的 *, +, 和 ? (尽可能少的匹配)
{m,n}           匹配 m 到 n 次由前面的正则表达式定义的片段，贪婪方式
{m,n}?          匹配 m 到 n 次由前面的正则表达式定义的片段，非贪婪方式
[...]           匹配方括号内内的字符集中的任意一个字符
|               等于 或
(...)           匹配括号内的表达式，也表示一个组
(?iLmsux)       设置可选参数的另类方式，不影响匹配
(?:...)         类似 (...), 但是不表示一个组
(?P<id>...)     类似 (...), 但该组同时得到一个 id,可以在后面的模式中引用
(?P=id)         匹配前面id组匹配的东西
(?#...)         括号内的内容仅仅是注释，不影响匹配
(?=...)         Lookahead assertion; matches if regular expression ... matches what comes next, but does not consume any part of the string
(?!...)         Negative lookahead assertion; matches if regular expression ... does not match what comes next, and does not consume any part of the string
(?<=...)        Lookbehind assertion; matches if there is a match for regular expression ... ending at the current position (... must match a fixed length)
(?<!...)        Negative lookbehind assertion; matches if there is no match for regular expression ... ending at the current position (... must match a fixed length)
/number         匹配先前匹配过的组(通过序号,组自动从1-99编号)
/A              匹配字符串开始
/b              匹配单词边界
/B              匹配一个空串(非单词边界)
/d              匹配任意数字
/D              匹配任意非数字
/s              匹配任意空白字符
/S              匹配任意非空字符
/w              匹配字母数字
/W              匹配非字母数字
/Z              匹配字符串结束
//              匹配反斜杠

1.2. 9.7.2 常用正则表达式

'.*' 作为一个正则表达式片段表示 "任意个数(0或更多个)的任意字符(除换行外)"。也就是说， '.*' 匹配一个字符串中的任意子串，包括空串。

'.+' 与'.*'类似，不过它不包括空串。举例来说：

'pre.*post'

匹配一个字符串含有'pre' ,后面跟着一个 'post'，中间可以隔着别的字符，也可以不隔着。 (举例来说, 它匹配 'prepost' 和 'pre23post')。

而 'pre.+post' 仅匹配 'pre' 和 'post' 之间有其它字符相隔的情况。(举例来说, 它匹配 'pre23post' 但不匹配 'prepost')。

要强制一个模式仅匹配由 'post' 结尾的字符串，用 /Z 结束这个模式。就象下面这样：

r'pre.*post/Z'

匹配 'prepost', 但不匹配 'preposterous'.

另一个经常用的模式是 /b, 它匹配单词边界. 如果你打算匹配单词 'his' 而不是 'this' 或 'history', 使用下面的正则表达式:

r'/bhis/b'

匹配以 'her' 开头的子串，使用:

r'/bher'

匹配以 'its' 结尾的子串，使用:

r'its/b'

匹配以 'her' 开头的任意单词：

r'/bher/w*'

匹配以 'its' 结尾的任意单词：

r'/w*its/b'

1.3. 9.7.3 字符集合

中括号 ([字符列表]) 用来表示字符集合. 可以用连字符 (-) 来表示连续的数字或字母。最后一个字符也包括在字符集合内，这与 Python range函数不同。中括号内的特殊字符代表他们本身, 除了 /, ], 和 - 之外, 这几个字符你必须转义后才可以代表其本身(通过在其前面放一个反斜线).一个字符集合内,你可以使用转义字符所表示的字符类,如 /d 或 /S 等.不过字符集合内的 /b 表示一个退格字符( backspace ), 而不是一个单词边界. 如果一个字符集合里的第一个字符是尖号 (^), 这个集合就是反集合,也就是说.这个集合匹配尖号后面的字符之外的任何字符.

一个常用集合用来匹配单词(字母,连字符或省略符(单引号)):

r"[a-zA-z'/-]+"

连字符前的转义反斜框在此处不是必需的,因为连字符所在位置使它不会具有歧义性.不过还是建议你一直对其使用转义符号,这会使你的模式字符串可读性更佳.

1.4. 9.7.4 可选择的匹配

如果你有一个单词的列表 L , 匹配任意单词的正则表达式就是:

'|'.join([r'/b%s/b' % word for word in L])

如果 L 的元素是常规字符串,而不仅仅是单词, 你需要用 re.escape(本章后面会有详述) 来转义它们. 如果你不需要 /b 单词边界,那么下面这个正则表达式就能满足你的需要:

'|'.join(map(re.escape,L))

1.5. 9.7.5 分组

正则表达式可以包含0至99个分组(允许任意个，但只有前99个被支持)。通常模式字符串中的一对未转义的小括号表示一个分组。元素 (?P<id>...) 也表示一个分组，不同的是它还给这个分组指定了一个名字, id, 可以是任意的 Python 标识符。所有的分组，命名的或未命名的，均被从左至右编号（ 1 至 99）, 组号 0 表示整个正则表达式。

对一个字符串的任意正则表达式匹配, 每个分组匹配一个子串 (也可能是一个空串)。当一个正则表达式使用 | 时, 某些分组可能不匹配任何子串，尽管整个正则表达式是匹配的。当一个分组的匹配是一个空串时，我们称这种情形为该分组没有参与匹配。举例来说：

r'(.+)/1+/Z'

该模式匹配任意非空子串的两个或更多个重复。(.+) 匹配一个非空子串 (任意字符任意个), 并且定义了一个分组。 /1+ 部分匹配1至更多次这个分组的重复。/Z 将匹配限制只允许发生在字符串的结尾。

1.6. 9.7.6 选项

除了在 re 模块的 compile 函数中提供 flags 选项参数之外，在 (? 和 ) 之间使用"iLmsux" 中的一个或多个字母能让你可以在模式字符串中设置正则表达式选项。不论哪种方式设置的选项，都是针对整个正则表达式的。为了清晰起见，选项通常总是放在模式的开头。如果使用选项x，则选项必须放置在模式首部，因为x选项影响Python解析模式的方式。

显式的使用选项参数比起将选项参数放在模式字符串中具有更好的可读性。函数 compile 的 flags 参数是一个整数, 通过对re模块中提供的属性中的一个或几个进行 '按位或' 运算得来。 (with Python's bitwise OR operator, |). 为了书写方便，每个属性都有一个简称 (一个大写字母)和一个全名 (一个全大写的标识符，具有更好的可读性)。

I 或 IGNORECASE 匹配忽略时大小写

L 或 LOCALE 让 /w, /W, /b, 和 /B 由当前区域设置决定

M 或 MULTILINE 特殊符号 ^ 和 $ 除了匹配字符串开始和结尾，也匹配每行的开始和结尾 (换行符之后/之前)

S 或 DOTALL 特殊字符 . 匹配任意字符，包括换行符

U 或 UNICODE /w, /W, /b, 和 /B 由Unicode字符集决定

X 或 VERBOSE 忽略模式字符串中的空白字符, 除非被转义的空白或空白位于字符集合内(中括号内)。该方式允许用 # 字符添加注释直至行尾。

举个例子，下面用三种不同的方式通过 compile 函数生成了相同的三个正则表达式对象（均与不区分大小写的'hello'模式匹配）:

python中正则表达式与re 模块

1. 9.7 正则表达式与 re 模块

1.1. 9.7.1 模式字符串语法

1.2. 9.7.2 常用正则表达式

1.3. 9.7.3 字符集合

1.4. 9.7.4 可选择的匹配

1.5. 9.7.5 分组

1.6. 9.7.6 选项

1.7. 9.7.7 Match VS Search

1.8. 9.7.8 字符串开始和结束

1.9. 9.7.9 正则表达式对象

1.9.1. flags

1.9.2. groupindex

1.9.3. pattern

1.9.4. findall 方法

1.9.5. match 方法

1.9.6. search 方法

1.9.7. split 方法

1.9.8. sub 函数

1.9.9. subn 函数

1.10. 9.7.10 Match 对象

1.10.1. end, span, start 方法

1.10.2. expand 方法

1.10.3. group 方法

1.10.4. groups 方法

1.10.5. groupdict 方法

1.11. 9.7.11 模块 re 中的函数

1.11.1. compile 函数

1.11.2. escape 函数