Python常用模块--re

时间:2021-05-29 22:34:31

 

Python内部的re--传闻中的正则模块,是无数初学者心中的噩梦,几乎到了谈正则色变的地步。

 

1.正则是干什么的

  正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

  也就是说正则做了两件事,一件事就是制定匹配的规则(如:只匹配数字),一件事是对符合规则的数据进行处理(提取、赋值、删除等)。

  那正则究竟有什么实际的用途呢?

  比如说:使用Python在做爬虫时(如爬取拉钩),服务器传回的response数据主体是HTML代码,需要使用正则匹配并提取相应的字段(如职位名称),这样就会获得好多的键值对({'职位名称':'Python高端工程师'},感兴趣的可以看看我的练手小项目

  再比如说:公司领导安排人事部门,统计一下近一年所有投寄的简历,要求汇总姓名、电话等,人事的同事看了下简历,我去,1000+份,工作量太大了,向你求助,这时候,你就可以使用Python循环读取每个文件,使用正则匹配里面的姓名、电话等,保存到Excel里,分分钟完成。

 

2.正则的第一件事:制定匹配的规则

  Python官方:https://docs.python.org/3.7/library/re.html

  官方文档可阅读性差些,但是胜在“真实”(实用)。

  推荐参考:https://www.jb51.net/tools/zhengze.html 

  jb51这个网站对正则的语法,由浅入深的分析,总结的特别好,篇幅太~~~~~~~~~~~~~~长,这里就不复制粘贴了。

  简要说下在Python中如何使用re:

#!/usr/bin/env python
# -*- coding:utf-8 -*-
__author__ = "问道编程"
__date__ = "2019/03/18 19:43"

import re

# 匹配手机号码
phone_pat = re.compile('^(13\d|14[5|7]|15\d|166|17[3|6|7]|18\d)\d{8}$') # 匹配规则

get_phone1 = '15012341234'
get_phone2 = '12012341234' # 测试用例

print(phone_pat.match(get_phone1)) # 打印结果,生成匹配对象
print(phone_pat.match(get_phone2)) # 返回None

 

3.常用的re方法s:

 

re.compile():

  编译一个正则表达式模式为正则表达式对象,其可用于使用它的匹配 match()search()以及其他方法,为了方便重复使用匹配规则,说明如下:

prog = re.compile(pattern)  # pattern 是匹配规则,字符串,通常前面加r,如  r'\d+'  匹配数字的
result = prog.match(string)
# 相当于
result = re.match(pattern, string)

 

re.search():

  对字符串进行查找匹配,如果有匹配的数据,则返回第一个匹配的对象,如果没有匹配的对象,则返回None:

import re

result = re.search('\d', 'ads123asd')
print(result) # <_sre.SRE_Match object; span=(3, 4), match='1'>

 

re.match():

  从字符串的开头开始匹配,如果有匹配的数据,则返回第一个匹配的对象,如果没有匹配的对象,则返回None:

import re

result = re.match('\d', 'ads123asd')
print(result) # None 因为开头就不匹配 ,跟search的区别

result = re.search('ads\d', 'ads123asd')
print(result) # <_sre.SRE_Match object; span=(0, 4), match='ads1'>

 

re.split():

  常用于字符串的切分,返回一个list,非常实用的功能:

import re

s = 'a,b;c d e'
a = s.split(' ')
print(a) # ['a,b;c', 'd', '', '', '', 'e'] 使用str自带的切分方法局限性太大
b = re.split(r'[,;\s]+',s)
print(b) # ['a', 'b', 'c', 'd', 'e'] # 使用re的切分工具可以实现多种组合的情况

 

re.findall():

  获取所有匹配的对象,返回list,也是非常实用的功能:

import re

a = re.compile(r'\d+') # 获取所有数字
b = a.findall('ax2k3h5b6n7')
print(b) # ['2', '3', '5', '6', '7']

 

re.sub():

  替换匹配的字段,也是re中非常强大的功能,web项目中常用于博客代码高亮的过滤器中:

import re

b = re.sub(r'\d', 'a', 'b1b23b21b34b124')
print(b)

 

本文参考:https://baike.baidu.com/item/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F/1700215?fr=aladdin