最近开始学习python,python的爬虫诱惑力实在太强。今天看着网上的教程,也学会了这样一个小功能
主要步骤是:
1.抓取网页
2.获取图片地址
3.抓取图片内容并保存到本地
下面是关键代码:
import urllib.request req=urllib.request.urlopen('http://www.imooc.com/course/list') buf=req.read() //显示从网页上抓取到的内容 buf //通过正则表达式获取图片地址 import re //本人用的是python3.5,直接用findall会出错,因此需要下面一句对buf进行编码 buf=buf.decode('UTF-8') listurl=re.findall(r'src=.+\.jpg',buf) listurl=re.findall(r'http:.+\.jpg',buf)//显示图片的网址 listurl //将图片写入本地 i=0 for url in listurl: f=open(r"G:\123"+'/'+str(i)+'.jpg','wb') req=urllib.request.urlopen(url) buf=req.read() f.write(buf) i+=1