4大经典爬虫模块应用操作

时间:2022-11-13 20:39:15

什么是爬虫:

是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫

 

采用python作为爬虫的优点:

大量第三方库,开发效率高,代码少,应用性广泛

 

网络爬虫的基本工作流程如下:

    1.首先选取一部分精心挑选的种子URL;

    2.将这些URL放入待抓取URL队列;

    3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。

    4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。

 

 

 

urllib模块

介绍:

urllib模块提供的上层接口,使我们可以像读取本地文件一样读取www和ftp上的数据

 

 

实战例子

项目原理:打开网址-获取源码-找到图片-匹配下载

 

 

#coding=utf-8

'''

Created on 2017年1月28日

 

@author: gaojs

'''

import urllib,re,os

def getHtml():

    page=urllib.urlopen('http://www.wmpic.me/meinv/').read()#打开网址并且读取

    return page

 

x=0

def getimg(page):

    imgre=re.compile(r' src="(.*?)" class=')

    imglist=re.findall(imgre,page)

    for imgurl in imglist:

#         print imgurl

        global x

        if not os.path.exists('/Users/gaojs/Desktop/pic'):

            print os.mkdir('/Users/gaojs/Desktop/pic/')

        else:

            urllib.urlretrieve(imgurl,'/Users/gaojs/Desktop/pic/'+'%s.jpg'%x)#下载图片到指定位置

            x+=1

            print u'正在下载第%s张'%x

       

 

l=getHtml()

getimg(l)

 

 

urllib2模块

urllib与urllib2区别

 

1.在python中,urllib和urllib2不可相互替代的。

2.整体来说,urllib2是urllib的增强,但是urllib中有urllib2中所没有的函数。

3.urllib2可以用urllib2.openurl中设置Request参数,来修改Header头。如果你访问一个网站,想更改User Agent(可以伪装你的浏览器),你就要用urllib2.

4.urllib支持设置编码的函数,urllib.urlencode,在模拟登陆的时候,经常要post编码之后的参数,所以要想不使用第三方库完成模拟登录,你就需要使用urllib。

5.urllib一般和urllib2一起搭配使用。

6.urllib2解决禁止爬虫,模拟浏览器,加上头部信息headers

 

实战例子

#coding=utf-8

'''

Created on 2017年1月19日

 

@author: gaojunsong

爬取百度小说

'''

 

import re,urllib2

class BDTB:

    baseurl="http://tieba.baidu.com/p/4896490947?pn="

   

    def getpage(self,pageNo):

        url=self.baseurl+str(pageNo)

        request=urllib2.Request(url)#构造对象

        response=urllib2.urlopen(request).read()

        return response

    def gettitle(self,pageNo):

        html=self.getpage(pageNo)

        reg=re.compile(r'title="【原创】(.*?)"')

        items=re.findall(reg,html)

        for item in items:

            with open('a.txt','w')as tp:

                tp.write('标题'+'\t'+'<<'+item+'>>')

        return items

    def getcontent(self,pageNo):

        html=self.getpage(pageNo)

        reg=re.compile(r'class="d_post_content j_d_post_content ">            (.*?)</div><br>',re.S)

        rq=re.findall(reg,html)

        for i in rq:

            removea=re.compile('<a.*?>|</a>')

            removeb=re.compile('<img.*?>')

            removec=re.compile('http.*?.html')

            i=re.sub(removea,'',i)

            i=re.sub(removeb,'',i)

            i=re.sub(removec,'',i)

            i=i.replace('<br>','')

            i=i.replace('嗯,这是第二次开小说贴,肯定有人看过,看过的可以再看一次','')

            i=i.replace('随意镇','')

            with open('a.txt','a')as tp:

                tp.write('\n\n'+i)

           

      

        return rq

      

l=BDTB()

for i in range(1,6):

    print '正在读取第%s页小说'%i

    l.getpage(i)

    l.gettitle(i)

    l.getcontent(i)

       

       

 

 

request模块

实战例子

对网址发送一个请求post/get,获取源码text和content

 

 

 

 

 

 bsp模块

bsp全称:BeautifulSoup(优势:不需要写正则表达式)

介绍:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

 

 实战例子

#例子:如何获取标签内容

#encoding=utf-8

from bs4 import BeautifulSoup

html='<title>welcome to gloryroad</title><div>join gloryroad soon<\div>'

soup=BeautifulSoup(html,'html.parser')#解析方式

print soup.div

print soup.title

 

 

#如何打开文件获取内容

新建html文件,写入内容‘欢迎同学加入光荣之路测试开发班级,跟吴老一起学习’

#encoding=utf-8

from bs4 import BeautifulSoup

soup=BeautifulSoup(open('a.html'),'html.parser')#解析方式

print soup.prettify()#打印本地文件内容,格式化打印内容

 

 

urllib urllib2 bsp综合案例

 实战例子

#encoding=utf-8

'''

爬取豆瓣网,美臀图片,并且存在指定目录下

用到的知识点,urllib,urllib2,bsp,shutil,os

'''

import urllib,urllib2,os

from bs4 import BeautifulSoup

import sys

from pip.index import Link

import shutil

reload(sys)

sys.setdefaultencoding('utf-8')#输出的内容为utf-8格式

 

x=0

'''

判断目录是否存在,如果不存在则创建

如果存在,删除目录以及下面所有文件,避免重复下载

'''

if not os.path.exists('/Users/gaojs/Desktop/pigu'):

        os.mkdir('/Users/gaojs/Desktop/pigu/')

else:

    shutil.rmtree('/Users/gaojs/Desktop/pigu/')#shutil比os好在于可以删除不为空的目录

    os.mkdir('/Users/gaojs/Desktop/pigu/')

def spider(url):

    headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}

    req=urllib2.Request(url,headers=headers)

    page=urllib2.urlopen(req,timeout=20).read()

    soup=BeautifulSoup(page,'html.parser')#解析方式parser

    my_girl=soup.find_all('img')

    for girl in my_girl:

        link=girl.get('src')

#         print link

        global x

        urllib.urlretrieve(link,'/Users/gaojs/Desktop/pigu/'+'%s.jpg'%x)#下载图片到指定位置

        x+=1

        print u'正在下载第%s张'%x

 

for page in xrange(1,3):

    page+=0

    url='http://www.dbmeinv.com/dbgroup/show.htm?cid=6&pager_offset=%s'%page

    print '第'+str(page)+'页'

    spider(url)

   

spider(url)