正则系列3：用法

搜索字符串，以列表形式返回能匹配的字符
该方法有3个参数，第一个就是你写的正则表达式，第二个匹配的目标字符串，第三个是一个匹配模式
(pattern, string, flags=0)

匹配演练
实战的效果是最好的，直接练习

#search是找一个结果的，findall是查询所有结果的。
import re

html='''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id ="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈惠琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>

练习1：
要求：匹配出li标签中既有歌手又有歌名的信息，包括超链接也匹配出来。
分析：我们可以看出排除了歌曲"一路有你"，其余的歌曲，歌手，以及超链接都要匹配出来。

results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>',html,re.S)
print(results)  #返回list，元素由tuple组成
for result in results:
    print(result) #返回每个tuple元素
    print(result[0],result[1],result[2])  #打印出tuple中的字符串数据

结果：
[(’/2.mp3’, ‘任贤齐’, ‘沧海一声笑’), (’/3.mp3’, ‘齐秦’, ‘往事随风’), (’/4.mp3’, ‘beyond’, ‘光辉岁月’), (’/5.mp3’, ‘陈惠琳’, ‘记事本’), (’/6.mp3’, ‘邓丽君’, ‘但愿人长久’)]
(’/2.mp3’, ‘任贤齐’, ‘沧海一声笑’)
/2.mp3 任贤齐沧海一声笑
(’/3.mp3’, ‘齐秦’, ‘往事随风’)
/3.mp3 齐秦往事随风
(’/4.mp3’, ‘beyond’, ‘光辉岁月’)
/4.mp3 beyond 光辉岁月
(’/5.mp3’, ‘陈惠琳’, ‘记事本’)
/5.mp3 陈惠琳记事本
(’/6.mp3’, ‘邓丽君’, ‘但愿人长久’)
/6.mp3 邓丽君但愿人长久

练习2：
有些小伙伴就会疑问，练习1没有去匹配第一首歌名，我想匹配所有歌名，要怎么办。
要求：对上述html代码匹配出所有歌名。

#要匹配所有歌
# * 表多个 ？表是前面匹配有或者没有,就到前面
results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>',html,re.S)
print(results)
print(type(results))
for result in results:
    print(result[1]) #拿到所有的歌名

结果：
[(’’, ‘一路上有你’, ‘’), (’’, ‘沧海一声笑’, ‘’), (’’, ‘往事随风’, ‘’), (’’, ‘光辉岁月’, ‘’), (’’, ‘记事本’, ‘’), (’’, ‘但愿人长久’, ‘’)]
<class ‘list’>
一路上有你
沧海一声笑
往事随风
光辉岁月
记事本
但愿人长久

秒客网

正则系列3：用法

相关文章

正则系列3： 用法

相关文章

正则系列3：用法