【Pyton】【小甲鱼】爬虫4-XXOO

 import urllib.request

 import os

 def open_url(url):

     req=urllib.request.Request(url)

     req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36')

     response=urllib.request.urlopen(url)

     html=response.read()

     print(url)

     return html

 def get_page(url):

     html=open_url(url).decode('utf-8')

     a=html.find('current-comment-page')+23 #23代表偏移

     b=html.find(']',a) #a代表起始位置

     return html[a:b]

 def find_imgs(url):

     html=open_url(url).decode('utf-8')

     img_addrs=[]

    #图片的左右边界

     a=html.find('img src=')

     while a!=-1:

         b=html.find('.jpg',a,a+255)

         if b!=-1:

             img_addrs.append(html[a+9:b+4])

         else:

             b=a+9

         a=html.find('img src=',b)

     for each in img_addrs:

         print(each)

     return img_addrs

 def save_imgs(folder,img_addrs):

     for each in img_addrs:

         filename=each.split('/')[-1]

         with open(filename,'wb')as f:

             img=open_url(each)

             f.write(img)

 def download_mm(folder='OOXX',pages=10):

     os.mkdir(folder)

     os.chdir(folder)

     url="http://jandan.net/ooxx/"

     page_num=int(get_page(url))

     for i in range(pages):

         page_num-=i

         page_url=url+'page-'+str(page_num)+'#comments'

         img_addrs=str('http')+find_imgs(page_url)

         save_imgs(folder,img_addrs)

 if __name__=='__main__':

     download_mm()
秒客网

【Pyton】【小甲鱼】爬虫4-XXOO

相关文章