python爬虫 爬取淘女郎介绍以及照片

时间:2021-12-24 06:24:14

https://mm.taobao.com/json/request_top_list.htm?page=1上爬取淘女郎的介绍和个人主页的照片


Spider.py

# __author__ = 'youngkl'
#_*_ coding:utf-8 _*_

import urllib
import urllib2
import re
import tool
import os


class Spider:
def __init__(self):
self.siteURL='http://mm.taobao.com/json/request_top_list.htm'
self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
#初始化headers
self.headers = { 'User-Agent' : self.user_agent }
self.tool=tool.Tool()

def getPage(self,pageIndex):
url=self.siteURL+"?page="+str(pageIndex)
# print url
request=urllib2.Request(url,headers=self.headers)
response=urllib2.urlopen(request)
return response.read().decode('gbk')

def getContents(self,pageIndex):
page=self.getPage(pageIndex)
pattern=re.compile('<div class="list-item".*?pic-word.*?<a href="(.*?)".*?<img src="(.*?)".*?<a class="lady-name".*?>(.*?)</a>.*?<strong>(.*?)</strong>.*?<span>(.*?)</span>',re.S)
items=re.findall(pattern,page)
contents=[]
for item in items:
contents.append([item[0],item[1],item[2],item[3],item[4]])
return contents

# 获取MM个人详情页面
def getDetailPage(self,infoURL):
# print u"infoURL ",infoURL
# response=urllib2.urlopen("http:"+infoURL)
request=urllib2.Request("http:"+infoURL,headers=self.headers)
response=urllib2.urlopen(request)
# print response.read()
return response.read().decode('gbk')

# 获取个人文字简介
def getBrief(self,page):
pattern=re.compile('<div class="mm-aixiu-content".*?>(.*?)<!--',re.S)
result=re.search(pattern,page)
return self.tool.replace(result.group(1))

# 获取页面所有图片
def getAllImg(self,page):
# print page
pattern=re.compile('<div class="mm-aixiu-content".*?>(.*?)<!--',re.S)
# 个人信息页面所有代码
content=re.search(pattern,page)
# 提取图片
patternImg=re.compile('<img.*?src="(.*?)"',re.S)
images=re.findall(patternImg,content.group(1))
return images

# 保存多张写真照片
def saveImgs(self,images,name):
# print u"images 2222222222222 ",images
number=1
print u"发现",name,u"共有",len(images),u"张照片"
for imageURL in images:
# print u"imageURL22222222222 ",imageURL
splitPath=imageURL.split('.')
fTail=splitPath.pop()
if len(fTail)>3:
fTail="jpg"
fileName=name+"/"+str(number)+"."+fTail
self.saveImg(imageURL,fileName)
number+=1

# 保存头像
def saveIcon(self,iconURL,name):
splitPath=iconURL.split('.')
fTail=splitPath.pop()
fileName=name+"/icon."+fTail
self.saveImg(iconURL,fileName)

# 保存个人简介
def saveBrief(self,content,name):
fileName=name+"/"+name+".txt"
f=open(fileName,"w+")
# 以读写模式打开
print u"正在偷偷保存她的个人信息为",fileName
f.write(content.encode('gbk'))

# 传入图片地址 文件名 保存单张图片
def saveImg(self,imageURL,fileName):
# print "imageURL ",imageURL
# print u"filename ",fileName
u=urllib.urlopen("http:"+imageURL)
# print u"hahahaha "
data=u.read()
# print u"data ",data
f=open(fileName,"wb")
# 以二进制模式打开
f.write(data)
print u"正在悄悄保存他的一张图片为",fileName
f.close()

# 创建新目录
def mkdir(self,path):
path=path.strip()
# 判断路径是否存在 存在为真
isExists=os.path.exists(path)
if not isExists:
# 如果不存在则创建目录
print u"偷偷新建了名字叫做",path,u'的文件夹'
# 创建目录操作函数
os.makedirs(path)
return True
else:
# 如果目录存在则不创建 并提示目录已存在
print u"名为",path,u'的文件夹已经创建成功'
return False

# 将一页淘女郎的信息保存起来
def savePageInfo(self,pageIndex):
# 获取第一特淘女郎列表
contents=self.getContents(pageIndex)
for item in contents:
# item[0]个人详情URL item[1]头像URL item[2]姓名 item[3]年龄 item[4]居住地
print u"发现一名模特,名字叫",item[2],u"芳龄",item[3],u",她在",item[4]
print u"正在偷偷的保存",item[2],u"的信息"
print u"她的个人地址是",item[0]
# 个人详情页面代码
detailURL=item[0]
detailPage=self.getDetailPage(detailURL)
# print detailPage
brief=self.getBrief(detailPage)
images=self.getAllImg(detailPage)
# print u"images ",images
self.mkdir(item[2])
self.saveBrief(brief,item[2])
print u"item[1] iconURL ",item[1]
self.saveIcon(item[1],item[2])
self.saveImgs(images,item[2])

# 传入起止页码 获取MM图片
def savePagesInfo(self,start,end):
for i in range(start,end+1):
print u"正在偷偷寻找第",i,u"个地方,看看MM在不在"
self.savePageInfo(i)

spi=Spider()
spi.savePagesInfo(1,10)

tool.py  去除一些标签

#-*- coding:utf-8 -*-
import re

#处理页面标签类
class Tool:
#去除img标签,1-7位空格, 
removeImg = re.compile('<img.*?>| {1,7}| ')
#删除超链接标签
removeAddr = re.compile('<a.*?>|</a>')
#把换行的标签换为\n
replaceLine = re.compile('<tr>|<div>|</div>|</p>')
#将表格制表<td>替换为\t
replaceTD= re.compile('<td>')
#将换行符或双换行符替换为\n
replaceBR = re.compile('<br><br>|<br>')
#将其余标签剔除
removeExtraTag = re.compile('<.*?>')
#将多行空行删除
removeNoneLine = re.compile('\n+')
def replace(self,x):
x = re.sub(self.removeImg,"",x)
x = re.sub(self.removeAddr,"",x)
x = re.sub(self.replaceLine,"\n",x)
x = re.sub(self.replaceTD,"\t",x)
x = re.sub(self.replaceBR,"\n",x)
x = re.sub(self.removeExtraTag,"",x)
x = re.sub(self.removeNoneLine,"\n",x)
#strip()将前后多余内容删除
return x.strip()