正则表达式
让机器 严格 按照我给的正则表达式(限定条件),来寻找(抓取)符合我要求的内容
Import re
变量 = re.match( ‘正则表达式’ ,’抓取的信息’ )
获取:print(变量.group())
1.匹配单个字符:
匹配 一个 字节位置,下列的符号只表示这一个字节位置上是什么,没有带数量的限制符号
# . 匹配任意1个字符(除了\n)
# [ ] 匹配[ ]中列举的字符 列表中出现所有东西的其中一个
# \d 匹配数字,即0-9
# \D 匹配非数字,即不是数字
# \s 匹配空白,即 空格,tab键(\t)
# \S 匹配非空白
# \w 匹配单词字符,即a-z、A-Z、0-9、_、汉字
# \W 匹配非单词字符
说明:
比如【1234】可以抓取1和2和3和4,而不是1234,就是列表中的每个index对应的每一项是一个单独的个体
【a-zA-Z0-9_】可以抓取a-z或者A-Z或者0-9或者下划线,他们中的任意一个,q可以G可以,_可以9可以
2.匹配多个字符:
在单个的基础上加入数量限制(放在单个字符后边:先说有什么,再说数量,这是格式,只限定了前一个字符)
# * 0次或者多次,即可有可无
# + 1次或者多次,至少有1次
# ? 1次或者0次,即要么有1次,要么没有
# {m} 出现m次
# {m,n} 出现从m到n次
# {n,} 出现n到无限次
说明:
linus命令中?是至少有一次
而正则中+是至少有一次
3.匹配开头和结尾:
# ^ 匹配字符串开头
# $ 匹配字符串结尾
扩展:
单个字符的时候\W,\S大写表示非,就不是的意思
[^ ]: 列举符号[ ] 加上^ 也表示非,就除了我括号中列举的内容都可以匹配
比如[^47]: 除了4和7以外都匹配 比如[^a-zA-Z]: 除了英文字母都匹配