正则表达式(上)

时间:2021-10-15 20:28:53

正则表达式

让机器  严格  按照我给的正则表达式(限定条件),来寻找(抓取)符合我要求的内容


Import re

变量 = re.match(   ‘正则表达式抓取的信息’ )

获取:print(变量.group())



1.匹配单个字符:

匹配  一个  字节位置,下列的符号只表示这一个字节位置上是什么,没有带数量的限制符号

# . 匹配任意1个字符(除了\n

# [ ] 匹配[ ]中列举的字符      列表中出现所有东西的其中一个

# \d 匹配数字,即0-9

# \D 匹配非数字,即不是数字

# \s 匹配空白,即 空格,tab键(\t

# \S 匹配非空白

# \w 匹配单词字符,即a-zA-Z0-9_、汉字

# \W 匹配非单词字符


说明:

比如【1234】可以抓取1234,而不是1234,就是列表中的每个index对应的每一项是一个单独的个体

a-zA-Z0-9_】可以抓取a-z或者A-Z或者0-9或者下划线,他们中的任意一个,q可以G可以,_可以9可以


2.匹配多个字符:

在单个的基础上加入数量限制(放在单个字符后边:先说有什么,再说数量,这是格式,只限定了前一个字符)

# *        0次或者多次,即可有可无

# +   1次或者多次,至少有1

# ?   1次或者0次,即要么有1次,要么没有

# {m}     出现m

# {m,n}  出现从mn

# {n}   出现n到无限次


说明:

linus命令中?是至少有一次

而正则中+是至少有一次



3.匹配开头和结尾:

# ^ 匹配字符串开头

# $ 匹配字符串结尾


扩展:

单个字符的时候\W\S大写表示非,就不是的意思

[^     ]: 列举符号[ ] 加上也表示非,就除了我括号中列举的内容都可以匹配

比如[^47] 除了47以外都匹配  比如[^a-zA-Z]:  除了英文字母都匹配