一 . 正则表达式
元字符:除了换行符外的任意字符
. : 匹配除了换行符意外的任意字符
/w : 匹配数字,字母,下划线
/s : 匹配空白符
/b : 匹配单词的末尾
/d : 匹配数字
/W : 匹配除了数字,字母,下划线
/D : 匹配数字数字
/S : 匹配除了空白符
^ : 开头
$ : 结尾
[ ] : 字符组
[ ^ ] : 除了字符组内的元素外
量词,也叫限定符
* { 0,n}
+ { 1, n}
? { 0, 1}
{p} p 次
{p,} p次或更多次
{p,q} 从p次到q次
. *
. +
. * ? :爬虫常用的
分组()
\ n 换行
\ \ n \ n
\.
\ /
\ ?
二 . re 模块
findall () 获取到匹配的所有内容
finditer() 匹配到所有内容,返回迭代器
search() 搜索,查到了就返回
match() 匹配,从头开始匹配
r '' (?P<name>正则)''