Python 正则：前后界定和前后非界定

在用正则去匹配识别手机号、QQ、微信号的时候，往往由于输入的文本可能非常的另类，比如，没有标点和隔断，这时`^`和`$`就用不上了。

不用其实也可以识别的，但是有个问题，手机后是11位数字，QQ是5~11或者更多数字，有可能从手机号中破坏性的匹配到QQ号。当然，此一类问题前后界定和前后非界定都适用。

前后界定和前后非界定中的界定的意思是：边界字符限制必须是或必须不能是的意思。

官方说法：

(?=pattern) 零宽正向先行断言(zero-width positive lookahead assertion) ：代表字符串中的一个位置，紧接该位置之后的字符序列能够匹配pattern。
(?!pattern) 零宽负向先行断言(zero-width negative lookahead assertion) ：代表字符串中的一个位置，紧接该位置之后的字符序列不能匹配pattern。
(?<=pattern) 零宽正向后行断言(zero-width positive lookbehind assertion) ：代表字符串中的一个位置，紧接该位置之前的字符序列能够匹配pattern。
(?<!pattern) 零宽负向后行断言(zero-width negative lookbehind assertion) ：代表字符串中的一个位置，紧接该位置之前的字符序列不能匹配pattern。

为了说明问题，假设QQ是最长10位，最少5位的数字：

 >>> import re
 >>> cont = "小强的手机号是15877966552"
 >>> print re.findall(r"[1-9]\d{4,9}",cont)
 [']

结果，正则从手机号中匹配到了结果，这是不对滴。有了前后非界定就好了：

 >>> print re.findall(r"[1-9]\d{4,9}(?!\d)",cont)
 []

再例如，文本中出现了成对的符号或字符，但实际上需要的是其内的部分，就用到了前后界定了：

 >>> cont = "str = '小强的手机号是15877966552'"
 >>> print re.findall(r"(?=\').*(?=\')",cont)
 ['\xe5\xb0\x8f\xe5\xbc\xba\xe7\x9a\x84\xe6\x89\x8b\xe6\x9c\xba\xe5\x8f\xb7\xe6\x98\xaf15877966552']

因此，`^`和`$`是包含某字符的匹配，前后界定和前后非界定是不包含某字符的匹配，明白后以便见方抓药。

前行符`<`的作用，就是字面上向前（向左查找），默认为向后（向右查找）。还是上面的字符匹配手机号：

 >>> print re.findall(r"(?<=\D)1\d{10}(?!\d)",cont)
 [']
 >>> print re.findall(r"(?<!\d)1\d{10}(?!\d)",cont)
 [']

参考：正则表达式的先行断言(lookahead)和后行断言(lookbehind)

Python 正则：前后界定和前后非界定的更多相关文章

python正则中的贪婪与非贪婪
当重复一个正则表达式时,如用 a*,操作结果是尽可能多地匹配模式.当你试着匹配一对对称的定界符,如 HTML 标志中的尖括号.匹配单个 HTML 标志的模式不能正常工作,因为 .* 的本质是“贪婪”的 ...
python正则非贪婪模式
上一篇python正则匹配次数大家应该也发现了,除了?其他匹配次数规则都是尽可能多的匹配那如果只想匹配1次怎么办呢,这就是正则中非贪婪模式的概念了原理就是利用?与其他匹配次数规则进行组合单个匹配 ...
Python正则式的基本用法
Python正则式的基本用法 1.1基本规则 1.2重复 1.2.1最小匹配与精确匹配 1.3前向界定与后向界定 1.4组的基本知识 2．re模块的基本函数 2.1使用compile加速 2.2 ma ...
python正则-re的使用
今天在刷题的时候用到了正则,用的过程中就感觉有点不太熟练了,很久没有用正则都有点忘了.所以现在呢,我们就一起来review一下python中正则模块re的用法吧. 今天是review,所以一些基础的概 ...
python 正则,常用正则表达式大全
Nginx访问日志匹配 re.compile #re.compile 规则解释,改规则必须从前面开始匹配一个一个写到后面,前面一个修改后面全部错误.特殊标准结束为符号为空或者双引号: 改符号开始从 ...
Python正则处理多行日志一例
正则表达式基础知识请参阅<正则表达式基础知识>,本文使用正则表达式来匹配多行日志并从中解析出相应的信息. 假设现在有这样的SQL日志: SELECT * FROM open_app WHE ...
Python正则处理多行日志一例(可配置化)
正则表达式基础知识请参阅<正则表达式基础知识>,本文使用正则表达式来匹配多行日志并从中解析出相应的信息. 假设现在有这样的SQL日志: SELECT * FROM open_app WHE ...
认识python正则模块re
python正则模块re python中re中内置匹配.搜索.替换方法见博客---python附录-re.py模块源码(含re官方文档链接) 正则的应用是处理一些字符串,phthon的博文python ...
python正则的中文处理(转)
匹配中文时,正则表达式规则和目标字串的编码格式必须相同 print sys.getdefaultencoding() text =u"#who#helloworld#a中文x#" ...

随机推荐

kali2&period;0中dradis的使用方法
启动脚本位于:/usr/lib/dradis下,再该目录下有一个start.sh文件,执行后,可以在浏览器中输入https://localhost:3004即可打开dradis的web接口切记前面h ...
数据字典生成工具之旅(7)：NVelocity实现代码生成器
这个系统好久没有更新了,人也慢慢变懒了,从现在开始每个月至少写三篇文章,欢迎大家监督.对了预告一下,该系列完成以后将为大家带来WebApp开发系列篇,敬请期待.先上几张图,放在文章最后面欢迎预览! 本 ...
随机序列生成算法---生成前N个整数的一组随机序列
问题描述: 给定输入N,生成从1开始的:1,2,3,4,......N 一组随机序列,序列中的数不能重复出现. 比如:N=5,合法的随机序列为{4,3,1,5,2} .{3,1,4,2,5}……非法的 ...
Android Studio之gradle的配置与介绍
1.gradle的简单介绍 Gradle是可以用于Android开发的新一代的Build System,也是Android Studio默认的build工具.其实Gradle脚本是基于一种JVM语言- ...
VS2013 启动时遇到空白窗口
安装了VS2013 ,然后打开,遇到空白窗口,等了10几秒无果. 我先是修复了VS2013,然后再打开VS2013,则显示登录微软账号的窗口.修复完2013时正好18:08,可能是下班了可以上网,才正 ...
SqlBulkCoy和普通数据库操作执行速度对比
SQLBulkCopy,用于数据库之间大批量的数据传递.通常用于新,旧数据库之间数据的更新.即使表结构完全不同,也可以通过字段间的对应关系,顺利的将数据导过来. 1.初始化SqlBulkCopy对象, ...
C&num; 语言规范&lowbar;版本5&period;0 (第9章命名空间)
1. 命名空间 C# 程序是利用命名空间组织起来的.命名空间既用作程序的“内部”组织系统,也用作“外部”组织系统(一种向其他程序公开自己拥有的程序元素的方法). using 指令(第 9.4 节)用来 ...
洛谷 P3384 【模板】树链剖分
树链剖分将一棵树的每个节点到它所有子节点中子树和(所包含的点的个数)最大的那个子节点的这条边标记为"重边". 将其他的边标记为"轻边". 若果一个非根节点的子 ...
vs 快捷键操作
各个版本可能不同,以vs 2013为例. 1.调试时,调出即时窗口:[Ctrl+Alt+i] 2.注释/取消注释:[Ctrl+K Ctrl+C]/[Ctrl+K Ctrl+U]
CMM：软件成熟度模型
周末在家闲来无事,泡咖啡看书,正好看到了关于CMM的相关资料,分享出来,也当做学习笔记... 一.CMM简介 CMM,英文全称为Capability Maturity Model for Softwa ...