正则表达式 匹配html问题

时间:2021-04-07 05:39:10
需要匹配的HTML:<a>adfad</a><a>fafsdfa</a>

为什么这个正则表达式<a.*>(.*?)</a>匹配的是<a>adfad</a><a>fafsdfa</a>其中$1=>adfad</a><a
而这个正则表达式<a(.*?)>(.*?)</a>匹配的是<a>adfad</a>和<a>fafsdfa</a>
------------------------------------------------------------------------

下面正则匹配出来的结果,是我想要的,但是,为什么分组与不分组有这么大的差距?

10 个解决方案

#1


加个?表示非贪婪匹配。

#2


贪婪匹配除了匹配第一个</a>外还会匹配第二个</a>

#3


正如一楼说的,这跟加分组是没有关系的,而是那个“?”号,表示非贪婪
如果是贪婪模式,那么<a.*>(.*?)</a>中的第一个“.*”,将一直向后匹配到最后,然后回溯到“<a>adfad</a><a>fafsdfa</a>”的第三个“>”前,
其中$1应该也不是“>adfad</a><a”,而是“fafsdfa”...

#4


在使用修饰匹配次数的特殊符号时,有几种表示方法可以使同一个表达式能够匹配不同的次数,比如:"{m,n}", "{m,}", "?", "*", "+",具体匹配的次数随被匹配的字符串而定。这种重复匹配不定次数的表达式在匹配过程中,总是尽可能多的匹配。比如,针对文本 "dxxxdxxxd",举例如下:

(d)(\w+)   "\w+" 将匹配第一个 "d" 之后的所有字符 "xxxdxxxd"
(d)(\w+)(d)  "\w+" 将匹配第一个 "d" 和最后一个 "d" 之间的所有字符 "xxxdxxx"。虽然 "\w+" 也能够匹配上最后一个 "d",但是为了使整个表达式匹配成功,"\w+" 可以 "让出" 它本来能够匹配的最后一个 "d"
 

    由此可见,"\w+" 在匹配的时候,总是尽可能多的匹配符合它规则的字符。虽然第二个举例中,它没有匹配最后一个 "d",但那也是为了让整个表达式能够匹配成功。同理,带 "*" 和 "{m,n}" 的表达式都是尽可能地多匹配,带 "?" 的表达式在可匹配可不匹配的时候,也是尽可能的 "要匹配"。这 种匹配原则就叫作 "贪婪" 模式 。

    非贪婪模式:

    在修饰匹配次数的特殊符号后再加上一个 "?" 号,则可以使匹配次数不定的表达式尽可能少的匹配,使可匹配可不匹配的表达式,尽可能的 "不匹配"。这种匹配原则叫作 "非贪婪" 模式,也叫作 "勉强" 模式。如果少匹配就会导致整个表达式匹配失败的时候,与贪婪模式类似,非贪婪模式会最小限度的再匹配一些,以使整个表达式匹配成功。举例如下,针对文本 "dxxxdxxxd" 举例:

 
(d)(\w+?)   "\w+?" 将尽可能少的匹配第一个 "d" 之后的字符,结果是:"\w+?" 只匹配了一个 "x"
(d)(\w+?)(d)  为了让整个表达式匹配成功,"\w+?" 不得不匹配 "xxx" 才可以让后边的 "d" 匹配,从而使整个表达式匹配成功。因此,结果是:"\w+?" 匹配 "xxx"
 


<a.*>(.*?)</a>这里的<a.*>为贪婪模式,匹配<a>adfad</a><a>fafsdfa</a>可以一直成功匹配到最后,这里的$1应为fafsdfa
而比如匹配字符串改为<a>adfad</a><a>fafsdfa</table>,这样正则表达式若要匹配成功,只能匹配到<a>adfad</a>,此时$1是adfad
<a(.*?)>(.*?)</a>这里的<a(.*?)>为非贪婪模式,所以可以分别匹配<a>adfad</a>和<a>fafsdfa</table>

当然,这里还有另外一个潜在的原因,那就是
. 小数点可以匹配除了换行符(\n)以外的任意一个字符
如果正则式改成<a[^>]*>(.*?)</a>,即使同样为贪婪模式,那和它将与<a(.*?)>(.*?)</a>匹配的结果一致

#5


今天上午就用到不少正则,很多搞不懂,这篇文章长见识了。

#6


这就是贪婪匹配的问题啊,只有(.*?)能够禁止贪婪匹配的过程。

在你的第一个表达式中,虽然禁止了<a>和</a>之间的贪婪匹配,但没有禁止<a>内的贪婪匹配,所以匹配时第一个(.*)就匹配了">adfad</a><a"(也就是第一个<a>到第二个<a>)。

#7


学习

#8


mark

#9


非贪婪匹配

#10


非贪婪模式:

    在修饰匹配次数的特殊符号后再加上一个 "?" 号,则可以使匹配次数不定的表达式尽可能少的匹配,使可匹配可不匹配的表达式,尽可能的 "不匹配"。这种匹配原则叫作 "非贪婪" 模式,也叫作 "勉强" 模式。如果少匹配就会导致整个表达式匹配失败的时候,与贪婪模式类似,非贪婪模式会最小限度的再匹配一些,以使整个表达式匹配成功。举例如下,针对文本 "dxxxdxxxd" 举例:

表达式
 匹配结果
 
(d)(\w+?)
 "\w+?" 将尽可能少的匹配第一个 "d" 之后的字符,结果是:"\w+?" 只匹配了一个 "x"
 
(d)(\w+?)(d)
 为了让整个表达式匹配成功,"\w+?" 不得不匹配 "xxx" 才可以让后边的 "d" 匹配,从而使整个表达式匹配成功。因此,结果是:"\w+?" 匹配 "xxx"
 

    更多的情况,举例如下:

    举例1:表达式 "<td>(.*)</td>" 与字符串 "<td><p>aa</p></td> <td><p>bb</p></td>" 匹配时,匹配的结果是:成功;匹配到的内容是 "<td><p>aa</p></td> <td><p>bb</p></td>" 整个字符串, 表达式中的 "</td>" 将与字符串中最后一个 "</td>" 匹配。 

    举例2:相比之下,表达式 "<td>(.*?)</td>" 匹配举例1中同样的字符串时,将只得到 "<td><p>aa</p></td>", 再次匹配下一个时,可以得到第二个 "<td><p>bb</p></td>"。

#1


加个?表示非贪婪匹配。

#2


贪婪匹配除了匹配第一个</a>外还会匹配第二个</a>

#3


正如一楼说的,这跟加分组是没有关系的,而是那个“?”号,表示非贪婪
如果是贪婪模式,那么<a.*>(.*?)</a>中的第一个“.*”,将一直向后匹配到最后,然后回溯到“<a>adfad</a><a>fafsdfa</a>”的第三个“>”前,
其中$1应该也不是“>adfad</a><a”,而是“fafsdfa”...

#4


在使用修饰匹配次数的特殊符号时,有几种表示方法可以使同一个表达式能够匹配不同的次数,比如:"{m,n}", "{m,}", "?", "*", "+",具体匹配的次数随被匹配的字符串而定。这种重复匹配不定次数的表达式在匹配过程中,总是尽可能多的匹配。比如,针对文本 "dxxxdxxxd",举例如下:

(d)(\w+)   "\w+" 将匹配第一个 "d" 之后的所有字符 "xxxdxxxd"
(d)(\w+)(d)  "\w+" 将匹配第一个 "d" 和最后一个 "d" 之间的所有字符 "xxxdxxx"。虽然 "\w+" 也能够匹配上最后一个 "d",但是为了使整个表达式匹配成功,"\w+" 可以 "让出" 它本来能够匹配的最后一个 "d"
 

    由此可见,"\w+" 在匹配的时候,总是尽可能多的匹配符合它规则的字符。虽然第二个举例中,它没有匹配最后一个 "d",但那也是为了让整个表达式能够匹配成功。同理,带 "*" 和 "{m,n}" 的表达式都是尽可能地多匹配,带 "?" 的表达式在可匹配可不匹配的时候,也是尽可能的 "要匹配"。这 种匹配原则就叫作 "贪婪" 模式 。

    非贪婪模式:

    在修饰匹配次数的特殊符号后再加上一个 "?" 号,则可以使匹配次数不定的表达式尽可能少的匹配,使可匹配可不匹配的表达式,尽可能的 "不匹配"。这种匹配原则叫作 "非贪婪" 模式,也叫作 "勉强" 模式。如果少匹配就会导致整个表达式匹配失败的时候,与贪婪模式类似,非贪婪模式会最小限度的再匹配一些,以使整个表达式匹配成功。举例如下,针对文本 "dxxxdxxxd" 举例:

 
(d)(\w+?)   "\w+?" 将尽可能少的匹配第一个 "d" 之后的字符,结果是:"\w+?" 只匹配了一个 "x"
(d)(\w+?)(d)  为了让整个表达式匹配成功,"\w+?" 不得不匹配 "xxx" 才可以让后边的 "d" 匹配,从而使整个表达式匹配成功。因此,结果是:"\w+?" 匹配 "xxx"
 


<a.*>(.*?)</a>这里的<a.*>为贪婪模式,匹配<a>adfad</a><a>fafsdfa</a>可以一直成功匹配到最后,这里的$1应为fafsdfa
而比如匹配字符串改为<a>adfad</a><a>fafsdfa</table>,这样正则表达式若要匹配成功,只能匹配到<a>adfad</a>,此时$1是adfad
<a(.*?)>(.*?)</a>这里的<a(.*?)>为非贪婪模式,所以可以分别匹配<a>adfad</a>和<a>fafsdfa</table>

当然,这里还有另外一个潜在的原因,那就是
. 小数点可以匹配除了换行符(\n)以外的任意一个字符
如果正则式改成<a[^>]*>(.*?)</a>,即使同样为贪婪模式,那和它将与<a(.*?)>(.*?)</a>匹配的结果一致

#5


今天上午就用到不少正则,很多搞不懂,这篇文章长见识了。

#6


这就是贪婪匹配的问题啊,只有(.*?)能够禁止贪婪匹配的过程。

在你的第一个表达式中,虽然禁止了<a>和</a>之间的贪婪匹配,但没有禁止<a>内的贪婪匹配,所以匹配时第一个(.*)就匹配了">adfad</a><a"(也就是第一个<a>到第二个<a>)。

#7


学习

#8


mark

#9


非贪婪匹配

#10


非贪婪模式:

    在修饰匹配次数的特殊符号后再加上一个 "?" 号,则可以使匹配次数不定的表达式尽可能少的匹配,使可匹配可不匹配的表达式,尽可能的 "不匹配"。这种匹配原则叫作 "非贪婪" 模式,也叫作 "勉强" 模式。如果少匹配就会导致整个表达式匹配失败的时候,与贪婪模式类似,非贪婪模式会最小限度的再匹配一些,以使整个表达式匹配成功。举例如下,针对文本 "dxxxdxxxd" 举例:

表达式
 匹配结果
 
(d)(\w+?)
 "\w+?" 将尽可能少的匹配第一个 "d" 之后的字符,结果是:"\w+?" 只匹配了一个 "x"
 
(d)(\w+?)(d)
 为了让整个表达式匹配成功,"\w+?" 不得不匹配 "xxx" 才可以让后边的 "d" 匹配,从而使整个表达式匹配成功。因此,结果是:"\w+?" 匹配 "xxx"
 

    更多的情况,举例如下:

    举例1:表达式 "<td>(.*)</td>" 与字符串 "<td><p>aa</p></td> <td><p>bb</p></td>" 匹配时,匹配的结果是:成功;匹配到的内容是 "<td><p>aa</p></td> <td><p>bb</p></td>" 整个字符串, 表达式中的 "</td>" 将与字符串中最后一个 "</td>" 匹配。 

    举例2:相比之下,表达式 "<td>(.*?)</td>" 匹配举例1中同样的字符串时,将只得到 "<td><p>aa</p></td>", 再次匹配下一个时,可以得到第二个 "<td><p>bb</p></td>"。