本文不讨论正则表达式入门,即如何使用正则匹配。讨论的是两种创建正则表达式的优劣和一些细节,最后给出一些常用正则匹配表达式。
Javascript中的正则表达式也是对象,我们可以使用两种方法创建正则表达式:
- 使用new RegExp()构造函数
- 使用正则表达字面量
先说结果,使用正则表达字面量的效率更高。
下面的示例代码演示了两种可用于创建正则表达式以匹配反斜杠的方法:
1 //正则表达字面量 2 var re = /\\/gm; 3 4 //正则构造函数 5 var reg = new RegExp("\\\\","gm"); 6 7 var foo = "abc\\123"; //foo的值为"abc\123" 8 9 console.log(re.test(foo)); //true 10 console.log(reg.test(foo)); //true
如上面的代码中可以看到,使用正则表达式字面量表示法时式子显得更加简短,而且不用按照类似类(class-like)的构造函数方式思考。
其次,在当使用构造函数的时候,在这里要使用四个反斜杠才能匹配单个反斜杠。这使得正则表达式模式显得更长,更加难以阅读和修改。正确来说,当使用RegExp()构造函数的时候,不仅需要转义引号(即\"表示"),并且通常还需要双反斜杠(即\\表示一个\)。
使用new RegExp()的原因之一在于,某些场景中无法事先确定模式,而只能在运行时以字符串方式创建。
RegExp直接量和对象的创建
值得注意的是,譬如程序运行时遇到直接量(初始化字面量表达式)诸如{} & []的时候都会创建新的对象。比如在循环体内写var arr = [],则每次遍历都会创建一个新的数组。
正则表达字面量则与此不同,ECMAScript3规定,字面量表达式在解析时只有一次创建了一个对象,同一段代码所表示的正则表达式字面量的每次运算都返回同一个对象。ECMAScript5规范则做了相反的规定,同一段代码所表示的正则表达式字面量每次运算都返回新对象。考虑下面的例子,在旧一些版本的浏览器与现代浏览器的运行结果不一致:
1 function getREG(){ 2 var re = /[a-z]/; 3 re.foo = "bar"; 4 return re; 5 } 6 7 var reg = getREG(), 8 re2 = getREG; 9 10 console.log(reg === re2); //在较低版本的浏览器(firefox3.6)中返回true,现代浏览器均返回false; 11 12 reg.foo="baz"; 13 console.log() //旧版本返回"baz",现代浏览器均返回"bar"
最后需要说明的是,调用RegExp()时不使用new的行为与使用new的行为是相同的。
常用正则表达式
1 Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
2 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
3 InternetURL:[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$
4 手机号码:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$ (可能会有新增头部)
5 电话号码("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX):^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$
6 国内电话号码(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7}
7 身份证号(15位、18位数字):^\d{15}|\d{18}$
8 短身份证号码(数字、字母x结尾):^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$
9 帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
10 密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):^[a-zA-Z]\w{5,17}$
11 强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
12 日期格式:^\d{4}-\d{1,2}-\d{1,2}
13 一年的12个月(01~09和1~12):^(0?[1-9]|1[0-2])$
14 一个月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$
15 中文字符的正则表达式:[\u4e00-\u9fa5]
16 双字节字符:[^\x00-\xff] (包括汉字在内,可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1))
17 空白行的正则表达式:\n\s*\r ^[\s]*\n (可以用来删除空白行)
18 HTML标记的正则表达式:<(\S*?)[^>]*>.*?</\1>|<.*? /> (网上流传的版本太糟糕,上面这个也仅仅能部分,对于复杂的嵌套标记依旧无能为力)
19 首尾空白字符的正则表达式:^\s*|\s*$或(^\s*)|(\s*$) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式)
20 腾讯QQ号:[1-9][0-9]{4,} (腾讯QQ号从10000开始)
21 中国邮政编码:[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)
22 JS注释:((\/\*[\s\S]*?\*\/)|(\/\/.*$))