正则系列3: 用法

时间:2025-02-11 18:10:51

搜索字符串,以列表形式返回能匹配的字符
该方法有3个参数,第一个就是你写的正则表达式,第二个匹配的目标字符串,第三个是一个匹配模式
(pattern, string, flags=0)

  • 匹配演练
    实战的效果是最好的,直接练习
#search是找一个结果的,findall是查询所有结果的。
import re

html='''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id ="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈惠琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>

练习1:
要求:匹配出li标签中既有歌手又有歌名的信息,包括超链接也匹配出来。
分析:我们可以看出排除了歌曲"一路有你",其余的歌曲,歌手,以及超链接都要匹配出来。

results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>',html,re.S)
print(results)  #返回list,元素由tuple组成
for result in results:
    print(result) #返回每个tuple元素
    print(result[0],result[1],result[2])  #打印出tuple中的字符串数据

结果:
[(’/2.mp3’, ‘任贤齐’, ‘沧海一声笑’), (’/3.mp3’, ‘齐秦’, ‘往事随风’), (’/4.mp3’, ‘beyond’, ‘光辉岁月’), (’/5.mp3’, ‘陈惠琳’, ‘记事本’), (’/6.mp3’, ‘邓丽君’, ‘但愿人长久’)]
(’/2.mp3’, ‘任贤齐’, ‘沧海一声笑’)
/2.mp3 任贤齐 沧海一声笑
(’/3.mp3’, ‘齐秦’, ‘往事随风’)
/3.mp3 齐秦 往事随风
(’/4.mp3’, ‘beyond’, ‘光辉岁月’)
/4.mp3 beyond 光辉岁月
(’/5.mp3’, ‘陈惠琳’, ‘记事本’)
/5.mp3 陈惠琳 记事本
(’/6.mp3’, ‘邓丽君’, ‘但愿人长久’)
/6.mp3 邓丽君 但愿人长久

练习2:
有些小伙伴就会疑问,练习1没有去匹配第一首歌名,我想匹配所有歌名,要怎么办。
要求:对上述html代码匹配出所有歌名。

#要匹配所有歌
# * 表多个 ?表是前面匹配有或者没有,就到前面
results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>',html,re.S)
print(results)
print(type(results))
for result in results:
    print(result[1]) #拿到所有的歌名

结果:
[(’’, ‘一路上有你’, ‘’), (’’, ‘沧海一声笑’, ‘’), (’’, ‘往事随风’, ‘’), (’’, ‘光辉岁月’, ‘’), (’’, ‘记事本’, ‘’), (’’, ‘但愿人长久’, ‘’)]
<class ‘list’>
一路上有你
沧海一声笑
往事随风
光辉岁月
记事本
但愿人长久