爬虫初探:把豆瓣读书主页上书的URL、书名、作者、出版时间、出版社全部爬下来

时间:2022-11-22 16:20:11
import requests
import re
#进入豆瓣读书主页,把网页源代码打出来
content = requests.get('https://book.douban.com/').text
#定义一个正则表达式对象
pattern = re.compile('<li.*?cover.*?href="(.*?)".*?title="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?publisher">(.*?)</span>.*?</li>', re.S)
results = re.findall(pattern, content)
for result in results:
url,name,author,date,publish = result
#删除多余的空格和换行符
author = re.sub('\s','',author)
date = re.sub('\s','',date)
publish = re.sub('\s','',publish)
print(url,name,author,date,publish)
得到的结果如下:

爬虫初探:把豆瓣读书主页上书的URL、书名、作者、出版时间、出版社全部爬下来

第一次完整的写一个小爬虫程序,个人感觉很爽,正则表达式匹配是关键,后面的格式整理让输出结果好看也很重要