正则 捕获组(capture group)

时间:2022-09-19 09:34:11

捕获组有两种形式

一种是普通的捕获组,不产生歧义的情况下,后面简称捕获组,语法规则:(expression);

另一种是命名捕获组,语法规则:(?<name>expression)或者(?'name'expression),这两种写法是等价的。

 

1、编号规则

如果没有显式为捕获组命名,即没有使用命名捕获组,那么需要按数字顺序来访问所有捕获组

在只有普通捕获组的情况下,捕获组的编号是按照“(”出现的顺序,从左到右编号的 

 

(\d{4})-(\d{2}-(\d\d))

1        1 2          3    3 2

 

上面的正则表达式可以用来匹配格式为yyyy-MM-dd的日期,为了在下表中得以区分,采用了\d{2}和\d\d两种写法

还有一个默认编号为0的组,表示的是正则表达式的整体

用以上正则表达式匹配字符串:2008-12-31

匹配结果为:

编号

命名

捕获组

匹配内容

0

 

(\d{4})-(\d{2}-(\d\d))

2008-12-31

1

 

(\d{4})

2008

2

 

(\d{2}-(\d\d))

12-31

3

 

(\d\d)

31

 

如果对组进行了显式命名,即命名捕获组,那么捕获的内容可以通过组名称来引用

但是如果正则表达式中既使用了普通捕获组,也使用了命名捕获组,那么捕获组的编号就要特别注意,编号的规则是先对普通捕获组进行编号,再对命名捕获组进行编号

 

(\d{4})-(?<date>\d{2}-(\d\d))

1        1 3                       2     23

 

用以上正则表达式匹配字符串:2008-12-31

匹配结果为:

编号

命名

捕获组

匹配内容

0

 

(\d{4})-(\d{2}-(\d\d))

2008-12-31

1

 

(\d{4})

2008

2

 

(\d\d)

31

3

date

(?<date>\d{2}-(\d\d))

12-31

 

 

2、捕获组的引用

对捕获组的引用一般有以下几种

a) 正则表达式中,对前面捕获组捕获的内容进行引用,称为反向引用

b) 正则表达式中,(?(表达式)true|false)的条件表达式

c) 在程序中,对捕获组捕获内容的引用

 

反向引用

对于普通捕获组的引用,语法规则为:\k<num>,通常简写为\num,其中num是十进制的数字,即捕获组的编号

对于命名捕获组的引用,语法规则为:\k<name>或者\k'name'