处理文本数据,尤其是关键词当匹配,python正则匹配真是最常用,没有之一的玩法了。而正则匹配也并没有想想中的那样难,不要被吓到。本质就是许多通配符,记不得没关系,会查表使用就OK了。
split( )函数:用于根据特定的字符、字符串分隔原字符串
举个例子,有字符串des['description'][0],值如下所示:
对该字符串进行分隔,分隔符是“车联网”。使用代码:
des['descritions'][0].split('车联网')
结果就是这样了,“车联网”作为分隔符像逗号分隔符一样,被分列后就没了
findall( )函数:返回所有匹配到的关键字
同样是刚才的des['descritions'][0],findall( )用于检索关键词后给词条打标签最好了,它的功能是将所有命中的keywords都返回,返回值是一个list。
如下图所示,只匹配到一个目标值,就只返回这个命中的目标,如果有命中多处,都会返回,比如:
findall( )函数:结合re.compile( )
当然还可以这样用
-
re.compile(),这里的参数是一个pattern,由字符串组成,包含正则表达式的关键字
-
'.',这个表示任意字符
-
{m, n},表示
-
实现的功能如输出结果所示,为在一定范围内既包含“车联网”,又包含“数据”的字符串被命中,并被取出
三分钟到了,你学会findall( )的使用方法了吗?Ipython里敲个代码试试?
欢迎关注微信公众号“数据分析师手记”