搜索字符串,以列表形式返回能匹配的字符
该方法有3个参数,第一个就是你写的正则表达式,第二个匹配的目标字符串,第三个是一个匹配模式
(pattern, string, flags=0)
-
匹配演练
实战的效果是最好的,直接练习
#search是找一个结果的,findall是查询所有结果的。
import re
html='''<div id="songs-list">
<h2 class="title">经典老歌</h2>
<p class="introduction">
经典老歌列表
</p>
<ul id ="list" class="list-group">
<li data-view="2">一路上有你</li>
<li data-view="7">
<a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
</li>
<li data-view="4" class="active">
<a href="/3.mp3" singer="齐秦">往事随风</a>
</li>
<li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
<li data-view="5"><a href="/5.mp3" singer="陈惠琳">记事本</a></li>
<li data-view="5">
<a href="/6.mp3" singer="邓丽君">但愿人长久</a>
</li>
</ul>
</div>
练习1:
要求:匹配出li标签中既有歌手又有歌名的信息,包括超链接也匹配出来。
分析:我们可以看出排除了歌曲"一路有你",其余的歌曲,歌手,以及超链接都要匹配出来。
results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>',html,re.S)
print(results) #返回list,元素由tuple组成
for result in results:
print(result) #返回每个tuple元素
print(result[0],result[1],result[2]) #打印出tuple中的字符串数据
结果:
[(’/2.mp3’, ‘任贤齐’, ‘沧海一声笑’), (’/3.mp3’, ‘齐秦’, ‘往事随风’), (’/4.mp3’, ‘beyond’, ‘光辉岁月’), (’/5.mp3’, ‘陈惠琳’, ‘记事本’), (’/6.mp3’, ‘邓丽君’, ‘但愿人长久’)]
(’/2.mp3’, ‘任贤齐’, ‘沧海一声笑’)
/2.mp3 任贤齐 沧海一声笑
(’/3.mp3’, ‘齐秦’, ‘往事随风’)
/3.mp3 齐秦 往事随风
(’/4.mp3’, ‘beyond’, ‘光辉岁月’)
/4.mp3 beyond 光辉岁月
(’/5.mp3’, ‘陈惠琳’, ‘记事本’)
/5.mp3 陈惠琳 记事本
(’/6.mp3’, ‘邓丽君’, ‘但愿人长久’)
/6.mp3 邓丽君 但愿人长久
练习2:
有些小伙伴就会疑问,练习1没有去匹配第一首歌名,我想匹配所有歌名,要怎么办。
要求:对上述html代码匹配出所有歌名。
#要匹配所有歌
# * 表多个 ?表是前面匹配有或者没有,就到前面
results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>',html,re.S)
print(results)
print(type(results))
for result in results:
print(result[1]) #拿到所有的歌名
结果:
[(’’, ‘一路上有你’, ‘’), (’’, ‘沧海一声笑’, ‘’), (’’, ‘往事随风’, ‘’), (’’, ‘光辉岁月’, ‘’), (’’, ‘记事本’, ‘’), (’’, ‘但愿人长久’, ‘’)]
<class ‘list’>
一路上有你
沧海一声笑
往事随风
光辉岁月
记事本
但愿人长久