用python写简单的爬虫还是很快的。以前看到别人吐槽python程序就是import,倒也无可厚非。
程序需要用到自带的urllib库和re库。urllib抓取网页。re实现正则的匹配。
随便搜的一个百度的贴吧,通过浏览器审查元素后发现每个jpg格式的图片对应的匹配规则是r'src="(.+\..jpg)" pic'。
上代码。
import urllib import re def getPage(url): page = urllib.urlopen(url).read() # fetch the html content return page def getImg(page): marker = r'src="(.+?\.jpg)" pic' # re rule imgre = re.compile(marker) imglist = imgre.findall(page) #re match num = 0 for imgurl in imglist: urllib.urlretrieve(imgurl,'D:\\temp\\%s.jpg' % num) num = num + 1 url = "http://tieba.baidu.com/p/3606227965" getImg(getPage(url))
这个博客Python爬虫实战四实现的爬虫功能更强,有心情也顺便看看了。