python下载多个文件

时间:2021-06-21 20:47:38

# -*- coding: utf-8 -*-
__author__ = 'Administrator'
import urllib2,urllib,os,re
def Url1(url):#多个文件
    openr=urllib2.build_opener()#下载文件html代码,找出一楼的核心代码
    openr.add_handler=[('User-agent', 'Mozilla/5.0')]#不加头信息则出现403错误和乱码
    html=openr.open(url).read()
    regfloor='<div class="msgfont">(.*?)</div>'
    html1=re.search(regfloor,html)
    html=html1.group()
    return html.decode('utf-8')#文件保存编码和文件编辑编码都是utf-8,所以decode一次,不然会出现乱码,但是不影响结果。
def getimg(url):
    pagehtml=Url1(url)#从核心代码中照图图片地址,并且下载保存、命名
    reg='<img src="(.*?)" alt=""/>'#找到所有图片地址
    imag=re.findall(reg,pagehtml)
    dir=r'G:\pic'
    for index in xrange(len(imag)):
        pic=str(index+1)+'.jpg'
        fine=os.path.join(dir,pic)
        urllib.urlretrieve(imag[index],fine)
        print fine+'ok'

url='http://wangwei007.blog.51cto.com/68019/1351429'
getimg(url)