Scrapy爬虫框架第三讲（linux环境）

下面我们来学习下Spider的具体使用：

我们已上节的百度阅读爬虫为例来进行分析：

  1 # -*- coding: utf-8 -*-

  2 import scrapy

  3 from scrapy.linkextractors import LinkExtractor

  4 from ..items import BookItem

  5

  6 class BookSpider(scrapy.Spider):

  7     name = 'book'

  8     allowed_domains = ['yuedu.baidu.com']

  9     #定义起始爬取点

 10     start_urls = ['https://yuedu.baidu.com/rank/newbook?pn=0']

 11

 12     #提取书籍列表页面

 13     def parse(self, response):

 14         #提取每本书点书籍页面链接

 15         le = LinkExtractor(restrict_css = 'a.al.title-link')

 16         le.extract_links(response)

 17         for link in le.extract_links(response):

 18             yield scrapy.Request(link.url,callback = self.parse_book)

 19

 20         #提取下个页面的列表页面

 21         url = url = response.css('div.pager a.next::attr(href)').extract_first()

 22         if url:

 23             url = response.urljoin(url)

 24             yield scrapy.Request(url,callback = self.parse)

 25

 26     #解析每本书的页面

 27     def parse_book(self,response):

 28         sel = response.css('div.content-block')

 29

 30         item = BookItem()

 31         item['name'] = sel.css('h1.book-title::attr(title)').extract_first()

 32         item['rating'] = sel.css('div.doc-info-score span.doc-info-score-value::text')    .extract_first()

 33         item['authors'] = sel.css('li.doc-info-field.doc-info-author a::text').extract    _first()

 34         item['publisher'] = sel.css('li.doc-info-field a::text').extract_first()

 35         item['price'] = sel.css('div.doc-info-price span.numeric::text').extract_first    ()

 36

 37         yield item

1、继承scrap.Spider

Scrapy爬虫框架第三讲（linux环境）

摘自官方文档

意思如下：scrapy框架为我们提供了一个Spider基类，我们编写的spider要继承它，如上面我们编写了一个BookSpider类，而这个类是继承于scrapy.Spider的

name属性：顾名思义就是命名，如上面我们将其命名为BookSpider,这是识别Spider的唯一标志（相当于你叫什么），供后面我们执行scrapy crawl 时使用，告诉spider 使用哪个Spider 去爬取

allowed_domains属性：顾名思义就是定义爬取的域名（也就是在哪个网站开始我们的爬虫）

start_urls属性：顾名思义就是定义起始爬取点【通常被实现为一个列表】

start_requests属性：

Scrapy爬虫框架第三讲（linux环境）

摘自官网

我们来解读下：

上面我们声明了start_urls通常为一个列表对象，实际上对于起始爬取点的请求是由Scrapy引擎调用Spider中的start_requests提交的，通过分析源码我们知道start_requests通过调用start_urls中的每一个u'r'l来构造Request请求

这里就提供给各位小伙伴一个重新定义起始爬取点的方法，即修改start_requests方法【它需要返回一个可迭代对象（列表、生成器等）】

示例如下：

def start_requests(self):

　　yield scrapy.Request('https://yuedu.baidu.com/rank/newbook?pn=20',callback = self.parse_book,headers = {User-Agent:'........'},dont_filter =True)

我们来分析下：

我们重新定义的起始爬取点为百度阅读新书榜第二页，并指定了回调函数为parse_book（如不指定会自动回调parse函数），设置了请求头字段，并更改了dont_filter为True (这里该字段默认为False 即对同一个url多次提交下载请求时，后面的请求会被去重过滤器过滤，这里我们设定了避免被过滤，进行强制下载！)--针对Request和Response对象小伙伴们我会单独列一篇文章与大家一起学习！

parse属性：顾名思义就是指定页面解析函数它的作用如下：
1、使用选择器提取页面中的信息，将数据封装后传个Scrapy引擎

2、使用选择器或者LinkExtractor提取页面中的链接，构造新的Request对象给Scrapy引擎

Scrapy爬虫框架第三讲（linux环境）

摘自官网

总结：

本文我们学习了spider的使用，它有四大基本属性name ; allowed_domains ; start_urls ;start_requests (其他的小伙伴们参见官网http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/spiders.html)，并学了构造起始爬取点的两种方法和整个spider的工作流程定义Spider类---命名爬虫---定义爬取的域名---定义起始爬取点--传递给页面解析函数进行解析

最后小伙伴DO YOU UNDERSTAND?明白了我们继续往下一起学习吧！

秒客网

Scrapy爬虫框架第三讲（linux环境）

相关文章