黑马程序员：Java基础总结----正则表达式

黑马程序员：Java基础总结

正则表达式

ASP.Net+Android+IO开发
、
.Net培训
、期待与您交流！

正则表达式

import
java.util.regex.*;

符合一定规则的表达式。

概述：正则表达式是用来操作字符串的一些规则；它是使用一些符号代表指定一些代码，从而可简化字符串的基本操作。

具体操作功能：

1，匹配：String matches方法。用规则匹配整个字符串，只要有一处不符合规则，就匹配结束，返回false。

boolean matches(String regex)
告知此字符串是否匹配给定的正则表达式。

2，切割：String split();

String[] split(String regex, int limit)
根据匹配给定的正则表达式来拆分此字符串。

3，替换：String replaceAll(regex,str);如果regex中有定义组，可以在第二参数中通过$符号获取正则表达式中的已有的组

String replaceAll(String regex, String replacement)
使用给定的 replacement 替换此字符串所有匹配给定的正则表达式的子字符串。

4，获取:将字符串中的符合规则的子串取出

方法

[1，将正则表达式封装成对象。

Pattern p = Pattern.compile(reg);

static Pattern compile(String regex)
将给定的正则表达式编译到模式中。

[2，让正则对象和要操作的字符串相关联。

Matcher m = p.matcher(str);

matcher(CharSequence input)
创建匹配给定输入与此模式的匹配器。

[3，关联后，获取正则匹配引擎。

[4，通过引擎对符合规则的子串进行操作，比如取出

while
(m.find())

{

System.
out
.println(m.group());

System.
out
.println(m.start()+
"...."
+m.end());

            }

boolean find()
          尝试查找与该模式匹配的输入序列的下一个子序列。

String group()
          返回由以前匹配操作所匹配的输入子序列。

int start()
          返回以前匹配的初始索引。

int end()
          返回最后匹配字符之后的偏移量。

boolean matches()
尝试将整个区域与模式匹配。

正则表达式的构造摘要

构造	匹配

字符
x	字符 x
`\\`	反斜线字符
`\t`	制表符 (`'\u0009'`)
`\n`	新行（换行）符 (`'\u000A'`)
`\r`	回车符 (`'\u000D'`)


字符类
`[abc]`	`a`、`b` 或 `c`（简单类）
`[^abc]`	任何字符，除了 `a`、`b` 或 `c`（否定）
`[a-zA-Z]`	`a` 到 `z` 或 `A` 到 `Z`，两头的字母包括在内（范围）
`[a-d[m-p]]`	`a` 到 `d` 或 `m` 到 `p`：`[a-dm-p]`（并集）
`[a-z&&[def]]`	`d`、`e` 或 `f`（交集）
`[a-z&&[^bc]]`	`a` 到 `z`，除了 `b` 和 `c`：`[ad-z]`（减去）
`[a-z&&[^m-p]]`	`a` 到 `z`，而非 `m` 到 `p`：`[a-lq-z]`（减去）

预定义字符类
`.`	任何字符（与行结束符可能匹配也可能不匹配）
`\d`	数字：`[0-9]`
`\D`	非数字： `[^0-9]`
`\s`	空白字符：`[ \t\n\x0B\f\r]`
`\S`	非空白字符：`[^\s]`
`\w`	单词字符：`[a-zA-Z_0-9]`
`\W`	非单词字符：`[^\w]`

边界匹配器
`^`	行的开头
`$`	行的结尾
`\b`	单词边界
`\B`	非单词边界
`\A`	输入的开头
`\G`	上一个匹配的结尾
`\Z`	输入的结尾，仅用于最后的结束符（如果有的话）
`\z`	输入的结尾

Greedy 数量词
X`?`	X，一次或一次也没有
X`*`	X，零次或多次
X`+`	X，一次或多次
X`{`n`}`	X，恰好 n 次
X`{`n`,}`	X，至少 n 次
X`{`n`,`m`}`	X，至少 n 次，但是不超过 m 次

组和捕获

捕获组可以通过从左到右计算其开括号来编号。例如，在表达式 ((A)(B(C))) 中，存在四个这样的组：

1     ((A)(B(C)))

2     \A

3     (B(C))

4     (C)

1	`((A)(B(C)))`
2	`\A`
3	`(B(C))`
4	`(C)`

给组标记：（.）\\1 封装组第一组

匹配

String str =
"b23a23456789"
;

String reg =
"[a-zA-Z]\\d*"
;

boolean
b= str.matches(reg);

System.
out
.println(b);

切割

//String reg = " +";//按照多个空格来进行切割

String[] arr = str.split(reg);

System.
out
.println(arr.
length
);

替换

String str =
"wer1389980000ty1234564uiod234345675f"
;
//将字符串中的数组替换成#。

str = str.replaceAll(
"\\d{5,}"
,
"#"
);

String str2 =
"erkktyqqquizzzzzo"
;
//将叠词替换成$. //将重叠的字符替换成单个字母。 zzzz->z

str2 = str2.replaceAll(
"(.)\\1+"
,
"$1"
);//（.）是封装组1

需求：对邮件地址进行校验

String mail =
"abc12@sina.com"
;

String reg =
"[a-zA-Z0-9_]+@[a-zA-Z0-9]+(\\.[a-zA-Z]+)+"
;
//较为精确的匹配。

System.
out
.println(mail.matches(reg));

网页爬虫(蜘蛛)

public
static
void
getMails()
throws
Exception

{

BufferedReader bufr =
new
BufferedReader(
new
FileReader(
"mail.txt"
));

String line =
null
;

String mailreg =
"\\w+@\\w+(\\.\\w+)+"
;

Pattern p = Pattern. compile(mailreg);

while
((line=bufr.readLine())!=
null
)

{

Matcher m = p. matcher(line);

while
(m.find())

{

System.
out
.println(m.group());

}

ASP.Net+Android+IO开发
、
.Net培训
、期待与您交流！

秒客网

黑马程序员：Java基础总结----正则表达式

正则表达式的构造摘要

组和捕获

相关文章