JavaScript备忘录(3)——正则表达式

时间:2022-12-03 07:50:36

正则表达式是用来进行字符串匹配的。

定义正则表达式有两种方法:/wor/或者new RegExp("wor")。

使用方法

在JS中,使用正则表达式的方法有:

  • 字符串的search方法:"hello".search(/e/)返回1。(以0开始的索引,如果未匹配到,返回-1)
  • 字符串的match方法:"hello".match(/e/)返回["e"]。(表示匹配到的字符串,若未匹配,返回空数组)
  • 正则表达式对象的test方法:(/e/).test("hello")返回true。(表示匹配了)
  • 正则表达式对象的exec方法:(/e/).exec("hello")返回["e"]。(表示匹配到的字符串,若未匹配,返回空数组)

字符

  • 字符本身表示该字符,比如/w/匹配字符w,如"world".search(/w/)返回0。
  • \b表示单词的起始和结束位置。比如/\bme\b/可以匹配"me too!",但不能匹配"media player"。
  • \d表示任意数字(digital)。
  • \w表示任意字母,数字或下划线(word)。
  • \s表示任意单个空格或制表符(space)。两个空格必须由两个\s匹配,比如"hi  you".match(/\b\s\s\b/)返回["  "](注意有两个空格),而"hi  you".match(/\b\s\b/)返回null。
  • .(点符号)匹配除了换行符的任意字符。
  • ^表示整个字符串的开头。
  • $表示整个字符串的结尾。
  • \B,\D,\W,\S,表示\b,\d,\w,\s的逆:非单词起始或结束位置,非数字,等等。
  • \\,\.,\^,\$等表示转义,如\^表示实际的字符"^"而不是字符串开头。
  • []中添加字符表示匹配其中的任一个字符,比如[abc]或[a-c]可以匹配字母a,b或者c,例如"banana".match(/[a-c]/g)返回["b","a","a","a"]。
  • []中的^表示反义,比如/[^abc]/表示任意不是a,b或者c的字符,例如"abgbac".match(/[^abc]/)返回["g"],"fref<afr><frf>.match(/<a[^>]+>/)返回["<afr>"],其含义为“尖括号内以a开头的字符串(包括尖括号)”。

重复

某一个匹配重复了若干次,有以下三种表达:

  • {n},表示元素重复了n此。如"hi3456good".match(/\d{3}/)会返回["345"],匹配了索引从2开始的3个数字。
  • {n,m},表示元素重复了n到m次。如"hi3456good".match(/\d{2,10}/)返回["3456"],因为任意数字出现了2到10次(这里是4次)。
  • {n,},表示元素至少重复了n次。如"hi3456good".match(/\d{2,}/)返回["3456"]。
  • *,表示重复任意次(包括零次),等同于{0,},如"higood".match(/hi\d*good/)返回["higood"]。
  • +,表示重复一次或更多,等同于{1,},如"higood".match(/hi\d+good/)返回null。
  • ?,表示重复零次或一次,等同于{0,1}。

分支

用|创建分支条件:

  • 比如"hello Joey".match(/hi|hello/)返回["hello"],"hi Joey".match(/hi|hello/)返回"hi"。
  • 比如,匹配一个0~255之间的数(在匹配IP地址时常用到):/2[0-4]\d|25[0-5]|[01]?\d\d?/。

分组

用()分组,提高运算优先级:

  • 比如,/^(\d{3}[a-z])*$/.test("123x456y789z")返回true。

使用分组时,会给组别分配组名,并使用\<组名>的形式匹配相同的文本:

比如,/(\b\w+\b)/可以匹配任意一个单词,那么/(\b\w+\b)\s+\1/就可以匹配中间带有空格的两个一样的单词,如"go go"。

JS不支持

断言

断言用来匹配“出现在……之前”或者“出现在……之后”的字符。其格式为(?=exp)或类似的格式。比如:

"going and watching".match(/\b\w+(?=ing\b)/g);其返回["go", "watch"]。

JS不支持负向零宽断言(即出现在……之后)的情况。