一、re模块的补充 1、从一个字符串中获取要匹配的内容 findall:返回一个列表 2、search ***** 验证用户输入内容 '^正则规则$':返回一个对象,用group()取值 3、match:与search一样,但是只从字符串的开头匹配 import re ret = re.match('\d+','123adas4567gi9sf7789') print(ret) # <_sre.SRE_Match object; span=(0, 3), match='123'> print(ret.group()) # 123 ret = re.match('\d+','adas4567gi9sf7789') print(ret.group()) # 报错,因为找不到以数字开始的字符串 相当于search的正则表达式中加 ^ ret = re.search('^\d+','123adas4567gi9sf7789') print(ret) # <_sre.SRE_Match object; span=(0, 3), match='123'> print(ret.group()) # 123 4、split:按照正则表达式规则对字符串进行分割 s = 'xiaoming666xiaogou123xiaohong' ret = re.split('\d+',s) print(ret) # ['xiaoming', 'xiaogou', 'xiaohong'] # 有元组的情况下,保留元组内的字符 ret = re.split('(\d+)',s) print(ret) # ['xiaoming', '666', 'xiaogou', '123', 'xiaohong'] ret = re.split('\d(\d)',s) print(ret) # ['xiaoming', '6', '6xiaogou', '2', '3xiaohong'] # 按照字符组拆分 ret = re.split('[ab]', 'abcd') # 先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割 print(ret) # ['', '', 'cd'] 5、sub:用某字符串替换正则表达式的内容 s1 = 'xiaoming666xiaogou123xiaohong456' ret = re.sub('\d+','|',s1) print(ret) # xiaoming|xiaogou|xiaohong| # 还可以设置替换多少次 ret = re.sub('\d+','|',s1,1) print(ret) # xiaoming|xiaogou123xiaohong456 # subn除了正常替换外,还会显示替换的次数,返回一个元组 ret = re.subn('\d+','|',s1) print(ret) # ('xiaoming|xiaogou|xiaohong|', 3) 6、finditer:返回一个存放匹配结果的迭代器(节省内存) ret = re.finditer('\d+','qwe123abc456') print(ret) # <callable_iterator object at 0x000001CA560DF860> print(ret.__next__().group()) # 123 print(next(ret).group()) # 456 # 或者单独使用for for i in ret: print(i.group()) # 123 456 7、compile:将正则表达式编译成为一个正则表达式对象 com = re.compile('\d+') print(com) # re.compile('\\d+') ret = com.search('qwe123abc456') print(ret.group()) # 123 ret = com.findall('qwe123abc456') print(ret) # ['123', '456'] ret = com.finditer('qwe123abc456') for i in ret: print(i.group()) # 123 456 8、分组命名、分组约束:在分组中利用?P<name>的形式给分组起名字,获取的匹配结果可以直接用group('名字')拿到对应的值 pattern = '<(?P<tag_name>.*?)>.*?</(?P=tag_name)>' # 正则表达式,(?P<tag_name>.*?) 表示为元组内的内容 .*? 起组名 # (?P=tag_name) 表示引用刚才的组的内容,即表示内容要与组的内容相同 ret = re.search(pattern,'<h1>函数</h1>') if ret: print(ret.group()) # <h1>函数</h1> print(ret.group('tag_name')) # h1 print(ret.group(1)) # h1 # 还可以用索引的形式使用元组内的内容 pattern = r'<(.*?)>.*?</\1>' # 这里的\1代表引用第一个元组内的内容 ret = re.search(pattern,'<h1>函数</h1>') if ret: print(ret.group()) # <h1>函数</h1> print(ret.group(1)) # h1 9、?的应用 ? 表示量词,零次或者一次 (?:正则表达式) 表示取消优先显示功能 (?P<组名>正则表达式) 表示给这个组起一个名字 (?P=组名) 表示引用之前组的名字,引用部分匹配到的内容必须和之前那个组中的内容一模一样 10、re模块中的flags flags有很多可选值: re.I(IGNORECASE)忽略大小写,括号内是完整的写法 re.M(MULTILINE)多行模式,改变^和$的行为 re.S(DOTALL)点可以匹配任意字符,包括换行符 re.L(LOCALE)做本地化识别的匹配,表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境,不推荐使用 re.U(UNICODE) 使用\w \W \s \S \d \D使用取决于unicode定义的字符属性。在python3中默认使用该flag re.X(VERBOSE)冗长模式,该模式下pattern字符串可以是多行的,忽略空白字符,并可以添加注释 ret = re.findall('[a-z]','aAbB',re.I) print(ret) # ['a', 'A', 'b', 'B'] 二、爬虫与re模块的小应用例子 # 爬一些网页的某些内容 # 这些内容结构相似 # 正则指引 from urllib.request import urlopen import re import json def getPage(url): response = urlopen(url) content = response.read().decode('utf-8') return content def parsePage(s): # s是网页源代码 ret = com.finditer(s) for i in ret: yield { "id": i.group("id"), "title": i.group("title"), "rating_num": i.group("rating_num"), "comment_num": i.group("comment_num"), } def main(num): url = 'https://movie.douban.com/top250?start=%s&filter=' % num response_html = getPage(url) ret = parsePage(response_html) print(ret) f = open("move_info7", "a", encoding="utf8") for obj in ret: print(obj) data = json.dumps(obj, ensure_ascii=False) f.write(data + "\n") f.close() if __name__ == '__main__': com = re.compile( '<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>' '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>', re.S) count = 0 for i in range(10): main(count) count += 25 三、异常处理 1-1、 区分语法错误和异常: 语法错误 :在程序之前就规避掉,不应该留到程序中来进行异常处理 if name == 1: # name没有定义导致的语法错误 pass 异常:在编译阶段没问题,在执行阶段才报错 num = int(input('>>>')) print(num) # 编译的时候是没问题的,但食在执行的时候如果输入的不是数字,就会报错,属于异常 1-2、什么是异常? 异常之后的代码就不执行了 1-3、什么是异常处理 python解释器检测到错误,触发异常(也允许程序员自己触发异常) 程序员编写特定的代码,专门用来捕捉这个异常(这段代码与程序逻辑无关,与异常处理有关) 如果捕捉成功则进入另外一个处理分支,执行你为其定制的逻辑,使程序不会崩溃,这就是异常处理 1-4、为什么要进行异常处理? python解析器去执行程序,检测到了一个错误时,触发异常,异常触发后且没被处理的情况下,程序就在当前异常处终止, 后面的代码不会运行,程序就崩溃了,所以你必须提供一种异常处理机制来增强你程序的健壮性与容错性 2、异常出现之后的现象 :从异常的地方开始,程序就不继续执行了 常用异常: AttributeError 试图访问一个对象没有的树形,比如foo.x,但是foo没有属性x IOError 输入/输出异常;基本上是无法打开文件 ImportError 无法引入模块或包;基本上是路径问题或名称错误 IndentationError 语法错误(的子类) ;代码没有正确对齐 IndexError 下标索引超出序列边界,比如当x只有三个元素,却试图访问x[5] KeyError 试图访问字典里不存在的键 KeyboardInterrupt Ctrl+C被按下 NameError 使用一个还未被赋予对象的变量 SyntaxError Python代码非法,代码不能编译(个人认为这是语法错误,写错了) TypeError 传入对象类型与要求的不符合 UnboundLocalError 试图访问一个还未被设置的局部变量,基本上是由于另有一个同名的全局变量,导致你以为正在访问它 ValueError 传入一个调用者不期望的值,即使值的类型是正确的
ArithmeticError
AssertionError
AttributeError
BaseException
BufferError
BytesWarning
DeprecationWarning
EnvironmentError
EOFError
Exception
FloatingPointError
FutureWarning
GeneratorExit
ImportError
ImportWarning
IndentationError
IndexError
IOError
KeyboardInterrupt
KeyError
LookupError
MemoryError
NameError
NotImplementedError
OSError
OverflowError
PendingDeprecationWarning
ReferenceError
RuntimeError
RuntimeWarning
StandardError
StopIteration
SyntaxError
SyntaxWarning
SystemError
SystemExit
TabError
TypeError
UnboundLocalError
UnicodeDecodeError
UnicodeEncodeError
UnicodeError
UnicodeTranslateError
UnicodeWarning
UserWarning
ValueError
Warning
ZeroDivisionError
3、异常处理 3-1、try except单分支 try: num = int(input('num : ')) print(num) except ValueError: print('你输入的不是数字') 3-2、多分支 l = ['首页','购物车','结算'] try: num = int(input('num : ')) print(l[num-1]) except ValueError: print('你输入的不是数字') except IndexError: print('您输入的内容超出范围') 3-3、多分支合并 l = ['首页','购物车','结算'] try: num = int(input('num : ')) print(l[num-1]) except (ValueError,IndexError): print('输入有误') 3-4、万能异常处理:Exception try: l = [] l[2] # IndexError import modules # ModuleNotFoundError open('file.txt') # FileNotFoundError dic = {} dic['k'] # KeyError except Exception: print('出现异常了') 3-4、as语法:由于用Exception不能知道是出现了哪种异常,不便于处理,所以使用as语法(其他异常也可用as) try: l = [] l[2] # IndexError import modules # ModuleNotFoundError open('file.txt') # FileNotFoundError dic = {} dic['k'] # KeyError except Exception as e: print(e) try: num = int(input('num:')) print(num) except ValueError as e: print(e) 3-5、多分支 + 万能异常 l = ['首页','购物车','结算'] try: num = int(input('num : ')) print(l[num-1]) dic['a'] except (ValueError,IndexError): # 当出现了这两种异常会先走这里 print('输入有误') except Exception as e: # 出现了除上述两种异常,就会走这里 print(e) 4、异常处理汇总 try: 可能发生异常的代码 except 错误类型: 处理的代码 try: 可能发生异常的代码 except 错误类型1: 处理的代码1 except 错误类型2: 处理的代码2 try: 可能发生异常的代码 except (错误类型1,错误类型2): 处理的代码 try: 可能发生异常的代码 except (错误类型1,错误类型2): 处理的代码 except Exception as e: print(e) 6、异常处理中的其他机制 6-1、try else:没有触发异常的时候走else语句 例如:没有定义变量的时候,会出现NameError异常 try: num except NameError: print('异常了') else: print('没有异常') 结果:异常了 try: num = 123 except NameError: print('异常了') else: print('没有异常') 结果:没有异常 实际应用 try: 发邮件的逻辑 except ValueError: print('触发了一个异常') else: 汇报这段代码顺利的执行了 : 发短信通知,记录到文件中 6-2、finally:无论如何都会执行,一般应用于收尾工作,关闭一个打开了的文件,释放占用了的网络资源,断开与数据库的链接等 try: name = 'xiaoming' except NameError: print('触发异常') finally: print('执行finally了') 结果:执行finally了 try: name except NameError: print('触发异常') finally: print('执行finally了') 结果:触发异常,执行finally了 关闭文件: def func(): try: f = open('file') return f.read() finally: f.close() print('closed') func() 7、主动抛出异常:raise 异常类型(错误信息) try: raise ValueError('错误信息') except ValueError as e: print(e) 8、自定义异常 自定义一个类名,继承BaseException __init__方法内调用父类的__init__ __init__初始化错误信息 __str__返回错误信息 class FruitException(BaseException): def __init__(self,msg): super().__init__() self.msg = msg def __str__(self): return self.msg try: raise FruitException('错误信息') except FruitException as e: print(e) 9、断言:assert 条件,就是符合条件继续运行下去,不符合条件就停止。 assert 1 == 1 print('继续执行') print('1') print('2') print('3') assert 1 == 2 print('后面的代码全都会停止') print('1') print('2') print('3')