\d[{n},{n,},{n,m}] 匹配十进制数字 n次,最少n次,最少n次最多m次
\D 匹配非十进制数字
[...] 表示一组字符,匹配里面任一字符 [^...]不在里面的任一字符
+匹配前面的子表达式; \s 空白字符; \S 除空白字符
(?:pattern)匹配但不取结果; ^ 表示开始位置 $表示结束位置
import re
string="<a href=\'http://www.sina.cn\'>新浪</a>"
pat="[a-zA-Z]+[://|:][^\s]*(?:com|cn)"
re.findall(pat,string)