Python笔记_第四篇_高阶编程_正则表达式_1.正则表达式简介(re模块)

1. 从一个判断手机号的问题引入：

　　如果给你一个字符串，去判断是否是一个手机号码，我们通过之前的学习可以有如下代码：

# 如果用普通的方式去检验一个电话号码非常麻烦。

def checkPhone(str):

    if len(str) != :

        return False

    elif str[] != "":

        return False

    elif str[:] != "" and str[:] != "":

        return False

    for i in range(,):

        if str[i] < "" or str[i] > "":

            return False

    return True

print(checkPhone(""))

print(checkPhone(""))

print(checkPhone("1391234a678"))

print(checkPhone(""))

print(checkPhone(""))

# True

# False

# False

# False

# False

　　从这个代码中我们可以看到过于繁琐，因此我们引入正则表达式的概念（regular express）

2. 正则概述：

　　正则语言是一种简单的寄宿语言，在大多数的语言当中都会有。因此py在1.5以后增加了re模块，提供了正则表达式模式。库名“import re”。

　　re模块：这个模块使py语言拥有了全部的正则表达式的功能。

　　正则语言其实就是一种对于查找内容的元字符表达。

3. re.match()、re.search()、re.findall()：

　　这三个函数主要是匹配正则表达式的。其中.span()是这些函数下面的一个方法，返回一个元组用于保存找到的位置的下标。

　　3.1 re.match()函数：

　　原型：re.match(pattern,string,flags=0)

　　参数：

　　　　pattern：要匹配的正则表达式

　　　　strings：要匹配的字符串

　　　　flags：标志位：用于控制正则表达式的匹配方式，是对pattern的一种辅助，如下：

　　　　　　　　re.I：忽略大小写

　　　　　　　　re.L：做本地化识别

　　　　　　　　re.M：多行匹配，影响^和$

　　　　　　　　re.S：使.(点)匹配包括换行符在内的所有字符

　　　　　　　　re.U：根据Unicode字符集解析字符，影响\w \W \b \B

　　　　　　　　re.X：以更灵活的格式理解正则表达式

　　功能：尝试从字符串的起始位置，匹配一个模式，如果不是起始位置匹配成功的话，也会返回None值，也就是说要从头开始匹配。只看头。

　　实例1：简单举例，查看一个网址前面是否有www

# 简单的举例，看一下一个网址前面是否有www

# www.baidu.com

# 扫描整个字符串，返回从其实位置成功的匹配。

print(re.match("www","www.baidu.com"))

# <re.Match object; span=(, ), match='www'>

print(re.match("www","ww.baidu.com"))

# 找不到返回：None

print(re.match("www","baidu.wwwcom"))

# 找不到返回：None，因为要从头开始匹配

print(re.match("www","wwW.baidu.com",flags=re.I))

# 匹配模式忽略大小写，能够查到

# <re.Match object; span=(, ), match='wwW'>

print(re.match("www","www.baidu.com").span())

# (, ),返回字符串对应的位置

　　3.2 re.search()函数：

　　原型：re.search(pattern,string,flags=0)

　　参数：

　　　　pattern：要匹配的正则表达式

　　　　strings：要匹配的字符串

　　　　flags：标志位：用于控制正则表达式的匹配方式，是对pattern的一种辅助，如下：

　　　　　　　　re.I：忽略大小写

　　　　　　　　re.L：做本地化识别

　　　　　　　　re.M：多行匹配，影响^和$

　　　　　　　　re.S：使.(点)匹配包括换行符在内的所有字符

　　　　　　　　re.U：根据Unicode字符集解析字符，影响\w \W \b \B

　　　　　　　　re.X：以更灵活的格式理解正则表达式

　　功能：扫描整个字符串，并返回第一个成功匹配，并不是从头匹配。只看第一个。

　　实例2：

print(re.search("Thomas","Thomas good man is Thomas!Thomas is nice"))

# <re.Match object; span=(, ), match='Thomas'>

# 返回的是第一个成功匹配的位置(,)

# 其他例子如上（略）

　　3.3 re.finall()函数：

　　原型：re.findall(pattern,string,flags=0)

　　参数：

　　　　pattern：要匹配的正则表达式

　　　　strings：要匹配的字符串

　　　　flags：标志位：用于控制正则表达式的匹配方式，是对pattern的一种辅助，如下：

　　　　　　　　re.I：忽略大小写

　　　　　　　　re.L：做本地化识别

　　　　　　　　re.M：多行匹配，影响^和$

　　　　　　　　re.S：使.(点)匹配包括换行符在内的所有字符

　　　　　　　　re.U：根据Unicode字符集解析字符，影响\w \W \b \B

　　　　　　　　re.X：以更灵活的格式理解正则表达式

　　功能：扫描整个字符串，并返回结果列表。看所有的，只要有全部列出来。

　　实例3：

print(re.findall("Thomas","good man is Thomas!Thomas is nice",re.X))

# <re.Match object; span=(, ), match='Thomas'>

# ['Thomas', 'Thomas']

# 其他例子如上（略）

秒客网

Python笔记_第四篇_高阶编程_正则表达式_1.正则表达式简介(re模块)

相关文章