正则表达式（上）

正则表达式

让机器 严格 按照我给的正则表达式（限定条件），来寻找（抓取）符合我要求的内容

Import re

变量 = re.match( ‘正则表达式’ ，’抓取的信息’ )

获取：print（变量.group（））

1.匹配单个字符：

匹配一个 字节位置，下列的符号只表示这一个字节位置上是什么，没有带数量的限制符号

# . 匹配任意1个字符（除了\n）

# [ ] 匹配[ ]中列举的字符 列表中出现所有东西的其中一个

# \d 匹配数字，即0-9

# \D 匹配非数字，即不是数字

# \s 匹配空白，即 空格，tab键（\t）

# \S 匹配非空白

# \w 匹配单词字符，即a-z、A-Z、0-9、_、汉字

# \W 匹配非单词字符

说明：

比如【1234】可以抓取1和2和3和4，而不是1234，就是列表中的每个index对应的每一项是一个单独的个体

【a-zA-Z0-9_】可以抓取a-z或者A-Z或者0-9或者下划线，他们中的任意一个，q可以G可以，_可以9可以

2.匹配多个字符：

在单个的基础上加入数量限制（放在单个字符后边：先说有什么，再说数量，这是格式，只限定了前一个字符）

# * 0次或者多次，即可有可无

# + 1次或者多次，至少有1次

# ? 1次或者0次，即要么有1次，要么没有

# {m} 出现m次

# {m,n} 出现从m到n次

# {n，} 出现n到无限次

说明：

linus命令中？是至少有一次

而正则中+是至少有一次

3.匹配开头和结尾：

# ^ 匹配字符串开头

# $ 匹配字符串结尾

扩展：

单个字符的时候\W，\S大写表示非，就不是的意思

[^ ]: 列举符号[ ] 加上^ 也表示非，就除了我括号中列举的内容都可以匹配

比如[^47]：除了4和7以外都匹配比如[^a-zA-Z]: 除了英文字母都匹配

秒客网