Scrapy爬虫框架的学习

第一步安装

首先得安装它，我使用的pip安装的

因为我电脑上面安装了两个python，一个是python2.x，一个是python3.x，所以为了区分，所以，在cmd中，我就使用命令:python2 -m pip install Scrapy (注意我这里使用python2的原因是我给2个python重命名了一下)

安装之后，输入scrapy，出现如下图这样子的信息，表示成功安装了

Scrapy爬虫框架的学习

如果有错误，可以参考一下：http://www.cnblogs.com/angelgril/p/7511741.html ，有可能会有用

第二步新建项目

通过命令scrapy startproject xxx 来创建scrapy项目（注意:你在哪个文件夹下面使用这个命令，项目就创建在哪个文件夹下面，你可以cd到某个你特定的文件夹下面，在使用该命令创建项目）

创建完后，用pycharm编辑器打开项目

项目结构如下图:

Scrapy爬虫框架的学习

下面来简单介绍一下各个文件的作用：
scrapy.cfg ：项目的配置文件
tencentProject/ ：项目的Python模块，将会从这里引用代码
tencentProject/items.py ：项目的items文件
tencentProject/pipelines.py ：项目的pipelines文件
tencentProject/settings.py ：项目的设置文件
tencentProject/spiders/ ：存储爬虫的目录

scrapy 爬虫网站一共需要4步：
新建项目 (Project)：新建一个新的爬虫项目
明确目标（Items）：明确你想要抓取的目标
制作爬虫（Spider）：制作爬虫开始爬取网页
存储内容（Pipeline）：设计管道存储爬取内容

第三步明确目标

修改 tencentProject目录下的 items.py 文件，添加相应的属性，（注意:scrapy.Field()，是固定的，只要记住就行了）

刚开始看起来可能会有些看不懂，但是定义这些item能让你用其他组件的时候知道你的items到底是什么。可以把Item简单的理解成封装好的类对象

Scrapy爬虫框架的学习

第四步制作爬虫

1、爬取

要建立一个Spider，你必须用scrapy.spider.BaseSpider创建一个子类，并确定三个强制的属性：

name ：爬虫的识别名称，必须是唯一的，在不同的爬虫中你必须定义不同的名字。
start_urls ：爬取的URL列表。爬虫从这里开始抓取数据，所以，第一次下载的数据将会
从这些urls开始。其他子URL将会从这些起始URL中继承性生成。
parse() ：解析的方法，调用的时候传入从每一个URL传回的Response对象作为唯一参
数，负责解析并匹配抓取的数据(解析为item)，跟踪更多的URL

可选设置的参数allow_domains 是搜索的域名范围，也就是爬虫的约束区域，规定爬虫只爬取这个域名下的网页。

在Scrapy里，使用一种叫做 XPath selectors 的机制，它基于 XPath 表达式，

下面我们来定义一只爬虫，命名为 tencent.py ，保存在 tencentProject\spiders 目录下。

tencent.py代码如下:

# -*- coding: utf-8 -*-

import scrapy

from tencentProject.items import TencentprojectItem

class TencentSpider(scrapy.Spider):

    # 爬虫名

    name = 'tencent'

    # 爬虫爬取数据的域范围

    allowed_domains = ['tencent.com']

    # 1. 需要拼接的url

    baseURL = "http://hr.tencent.com/position.php?&start="

    # 1. 需要拼接的url地址的偏移量

    offset = 0

    # 爬虫启动时，读取的url地址列表

    start_urls = [baseURL + str(offset)]

    # 用来处理response

    def parse(self, response):

        # 提取每个response的数据

        node_list = response.xpath("//tr[@class='even'] | //tr[@class='odd']")

        for node in node_list:

            # 构建item对象，用来保存数据

            item = TencentprojectItem()

            # 提取每个职位的信息，并且将提取出的Unicode字符串编码为UTF-8编码

            item['positionName'] = node.xpath("./td[1]/a/text()").extract()[0].encode("utf-8")

            item['positionLink'] = node.xpath("./td[1]/a/@href").extract()[0].encode("utf-8")

            if len(node.xpath("./td[2]/text()")):

                item['positionType'] = node.xpath("./td[2]/text()").extract()[0].encode("utf-8")

            else:

                item['positionType'] = "NULL"

            item['peopleNumber'] = node.xpath("./td[3]/text()").extract()[0].encode("utf-8")

            item['workLocation'] = node.xpath("./td[4]/text()").extract()[0].encode("utf-8")

            item['publishTime'] = node.xpath("./td[5]/text()").extract()[0].encode("utf-8")

            # yield 的重要性，是返回数据后还能回来接着执行代码

            yield item

        # 第一种写法：拼接url，适用场景：页面没有可以点击的请求连接，必须通过拼接url才能获取响应

        # if self.offset < 2190:

        #     self.offset += 10

        #     url = self.baseURL + str(self.offset)

        #     yield scrapy.Request(url, callback = self.parse)

        # 第二种写法：直接从response获取需要爬取的连接，并发送请求处理，直到链接全部提取完

        if len(response.xpath("//a[@class='noactive' and @id='next']")) == 0:

            url = response.xpath("//a[@id='next']/@href").extract()[0]

            yield scrapy.Request("http://hr.tencent.com/" + url, callback = self.parse)

    #def parse_next(self, response):

    #    pass

tencent.py

注意：里面的关键字yield 的作用是:返回数据后，还能继续去执行未完成的操作，它不像return，但是，它又有return的返回数据的功能

2、存储

在管道文件pipelines.py 去添加一下代码:

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

import json

class TencentprojectPipeline(object):

    def __init__(self):

        self.f=open("tencent.json","w")

    def process_item(self, item, spider):

        #设置完后，一定要去去掉settings.py文件中的注释，才能启用管道

        '''

        ITEM_PIPELINES = {

            'tencentProject.pipelines.TencentprojectPipeline': 300,}

        '''

        content=json.dumps(dict(item),ensure_ascii=False)+",\n"   #json.dumps()转换成json类型的字符串,ensure_ascii=False 表示遵循unicode编码来转换

        self.f.write(content)

        return item

    def close_spider(self,spider):

        self.f.close()

秒客网

Scrapy爬虫框架的学习

第一步安装

第二步新建项目

scrapy 爬虫网站一共需要4步：
新建项目 (Project)：新建一个新的爬虫项目
明确目标（Items）：明确你想要抓取的目标
制作爬虫（Spider）：制作爬虫开始爬取网页
存储内容（Pipeline）：设计管道存储爬取内容

第三步明确目标

第四步制作爬虫

相关文章

Scrapy爬虫框架的学习

第一步安装

第二步新建项目

scrapy 爬虫网站 一共需要4步：新建项目 (Project)：新建一个新的爬虫项目明确目标 （Items）：明确你想要抓取的目标制作爬虫 （Spider）：制作爬虫开始爬取网页存储内容 （Pipeline）：设计管道存储爬取内容

第三步明确目标

第四步制作爬虫

相关文章

scrapy 爬虫网站一共需要4步：
新建项目 (Project)：新建一个新的爬虫项目
明确目标（Items）：明确你想要抓取的目标
制作爬虫（Spider）：制作爬虫开始爬取网页
存储内容（Pipeline）：设计管道存储爬取内容