Python爬虫框架Scrapy实例（一）

目标任务：爬取腾讯社招信息，需要爬取的内容为：职位名称，职位的详情链接，职位类别，招聘人数，工作地点，发布时间。

一、创建Scrapy项目

scrapy startproject Tencent

命令执行后，会创建一个Tencent文件夹，结构如下

二、编写item文件，根据需要爬取的内容定义爬取字段

# -*- coding: utf-8 -*-

import scrapy

class TencentItem(scrapy.Item):

    # 职位名

    positionname = scrapy.Field()

    # 详情连接

    positionlink = scrapy.Field()

    # 职位类别

    positionType = scrapy.Field()

    # 招聘人数

    peopleNum = scrapy.Field()

    # 工作地点

    workLocation = scrapy.Field()

    # 发布时间

    publishTime = scrapy.Field()

三、编写spider文件

进入Tencent目录，使用命令创建一个基础爬虫类：

#  tencentPostion为爬虫名，tencent.com为爬虫作用范围

scrapy genspider tencentPostion "tencent.com"

执行命令后会在spiders文件夹中创建一个tencentPostion.py的文件，现在开始对其编写：

# -*- coding: utf-8 -*-

import scrapy

from tencent.items import TencentItem

class TencentpositionSpider(scrapy.Spider):

    """

    功能：爬取腾讯社招信息

    """

    # 爬虫名
    name = "tencentPosition"
    # 爬虫作用范围

    allowed_domains = ["tencent.com"]

    url = "http://hr.tencent.com/position.php?&start="

    offset = 0

    # 起始url

    start_urls = [url + str(offset)]

    def parse(self, response):

        for each in response.xpath("//tr[@class='even'] | //tr[@class='odd']"):

            # 初始化模型对象

            item = TencentItem()

            # 职位名称

            item['positionname'] = each.xpath("./td[1]/a/text()").extract()[0]

            # 详情连接

            item['positionlink'] = each.xpath("./td[1]/a/@href").extract()[0]

            # 职位类别

            item['positionType'] = each.xpath("./td[2]/text()").extract()[0]

            # 招聘人数

            item['peopleNum'] =  each.xpath("./td[3]/text()").extract()[0]

            # 工作地点

            item['workLocation'] = each.xpath("./td[4]/text()").extract()[0]

            # 发布时间

            item['publishTime'] = each.xpath("./td[5]/text()").extract()[0]

            yield item

        if self.offset < 1680:

            self.offset += 10

        # 每次处理完一页的数据之后，重新发送下一页页面请求

        # self.offset自增10，同时拼接为新的url，并调用回调函数self.parse处理Response

        yield scrapy.Request(self.url + str(self.offset), callback = self.parse)

四、编写pipelines文件

# -*- coding: utf-8 -*-

import json

class TencentPipeline(object):
　　""" 
       功能：保存item数据 
   """

    def __init__(self):

        self.filename = open("tencent.json", "w")

    def process_item(self, item, spider):

        text = json.dumps(dict(item), ensure_ascii = False) + ",\n"

        self.filename.write(text.encode("utf-8"))

        return item

    def close_spider(self, spider):

        self.filename.close()

五、settings文件设置（主要设置内容）

# 设置请求头部，添加url

DEFAULT_REQUEST_HEADERS = {

    "User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;",

    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'

}

# 设置item——pipelines

ITEM_PIPELINES = {

    'tencent.pipelines.TencentPipeline': 300,

}

执行命令，运行程序

# tencentPosition为爬虫名

scrapy crwal tencentPosition

使用CrawlSpider类改写

# 创建项目

scrapy startproject TencentSpider

# 进入项目目录下，创建爬虫文件

scrapy genspider -t crawl tencent tencent.com

item等文件写法不变，主要是爬虫文件的编写

# -*- coding:utf-8 -*-

import scrapy

# 导入CrawlSpider类和Rule

from scrapy.spiders import CrawlSpider, Rule

# 导入链接规则匹配类，用来提取符合规则的连接

from scrapy.linkextractors import LinkExtractor

from TencentSpider.items import TencentItem

class TencentSpider(CrawlSpider):

    name = "tencent"

    allow_domains = ["hr.tencent.com"]

    start_urls = ["http://hr.tencent.com/position.php?&start=0#a"]

    # Response里链接的提取规则，返回的符合匹配规则的链接匹配对象的列表

    pagelink = LinkExtractor(allow=("start=\d+"))

    rules = [

        # 获取这个列表里的链接，依次发送请求，并且继续跟进，调用指定回调函数处理

        Rule(pagelink, callback = "parseTencent", follow = True)

    ]

    # 指定的回调函数

    def parseTencent(self, response):

        for each in response.xpath("//tr[@class='even'] | //tr[@class='odd']"):

            item = TencentItem()

            # 职位名称

            item['positionname'] = each.xpath("./td[1]/a/text()").extract()[0]

            # 详情连接

            item['positionlink'] = each.xpath("./td[1]/a/@href").extract()[0]

            # 职位类别

            item['positionType'] = each.xpath("./td[2]/text()").extract()[0]

            # 招聘人数

            item['peopleNum'] =  each.xpath("./td[3]/text()").extract()[0]

            # 工作地点

            item['workLocation'] = each.xpath("./td[4]/text()").extract()[0]

            # 发布时间

            item['publishTime'] = each.xpath("./td[5]/text()").extract()[0]

            yield item

Python爬虫框架Scrapy实例（一）的更多相关文章

Python爬虫框架Scrapy实例（三）数据存储到MongoDB
Python爬虫框架Scrapy实例(三)数据存储到MongoDB任务目标:爬取豆瓣电影top250,将数据存储到MongoDB中. items.py文件复制代码# -*- coding: utf-8 ...
Python爬虫框架Scrapy实例（二）
目标任务:使用Scrapy框架爬取新浪网导航页所有大类.小类.小类里的子链接.以及子链接页面的新闻内容,最后保存到本地. 大类小类如下图所示: 点击国内这个小类,进入页面后效果如下图(部分截图): 查 ...
python爬虫框架scrapy实例详解
生成项目scrapy提供一个工具来生成项目,生成的项目中预置了一些文件,用户需要在这些文件中添加自己的代码.打开命令行,执行:scrapy st... 生成项目 scrapy提供一个工具来生成项目,生 ...
Python爬虫框架Scrapy实例（四）下载中间件设置
还是豆瓣top250爬虫的例子,添加下载中间件,主要是设置动态Uesr-Agent和代理IP Scrapy代理IP.Uesr-Agent的切换都是通过DOWNLOADER_MIDDLEWARES进行控 ...
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
Linux 安装python爬虫框架 scrapy
Linux 安装python爬虫框架 scrapy http://scrapy.org/ Scrapy是python最好用的一个爬虫框架.要求: python2.7.x. 1. Ubuntu14.04 ...
《Python3网络爬虫开发实战》PDF+源代码+《精通Python爬虫框架Scrapy》中英文PDF源代码
下载:https://pan.baidu.com/s/1oejHek3Vmu0ZYvp4w9ZLsw <Python 3网络爬虫开发实战>中文PDF+源代码下载:https://pan. ...
Python爬虫框架Scrapy教程(1)—入门
最近实验室的项目中有一个需求是这样的,需要爬取若干个(数目不小)网站发布的文章元数据(标题.时间.正文等).问题是这些网站都很老旧和小众,当然也不可能遵守 Microdata 这类标准.这时候所有网页 ...

随机推荐

ssm简单配置
MyBatis 是一个可以自定义SQL.存储过程和高级映射的持久层框架. MyBatis 摒除了大部分的JDBC代码.手工设置参数和结果集重获. MyBatis 只使用简单的XML 和注解来配置和映射 ...
一个基于Orchard的开源CRM --coevery简介
Coevery是开源的.NET Web平台项目,力争打造一个开放而鲁棒的CRM系统,采用Orchard架构,并使用AngularJS改善页面体验.作为一个后发优势的CRM 产品,Coevery 具有一 ...
2016年11月17日星期四 --出埃及记 Exodus 20&colon;8
2016年11月17日星期四 --出埃及记 Exodus 20:8 "Remember the Sabbath day by keeping it holy.当记念安息日,守为圣日.
详解Android中的屏幕方向
屏幕方向是对Activity而言的,所以你可以在AndroidManifest.xml 文件中,通过<activity> 标记的screenOrientation 属性进行设定,例如: ...
HTTP的长短连接、长短轮询的区别(转载)
引言最近刚到公司不到一个月,正处于熟悉项目和源码的阶段,因此最近经常会看一些源码.在研究一个项目的时候,源码里面用到了HTTP的长轮询.由于之前没太接触过,因此LZ便趁着这个机会,好好了解了一下HT ...
MySQL用户管理及SQL语句详解
1.1 MySQL用户管理 1.1.1 用户的定义用户名+主机域 mysql> select user,host,password from mysql.user; +--------+--- ...
golang 数组、切片、map
一.数组(类似python的list) 数组的长度一旦定义了就不能动态增长.并且存储的数据类型必须相同. 创建方法: var 数组名 [长度]数据类型例如: package main import ...
vue&period;js &dollar;refs和&dollar;emit 父子组件交互
父调子 $refs (把父组件的数据传给子组件) <template> <div id="app"> <input type="butto ...
solr亿万级索引优化实践（四）
本篇是这个系类的最后一篇,但优化方案不仅于此,需要后续的研究与学习,本篇主要从schema设计的角度来做一些实践. schema.xml 这个文件的作用是定义索引数据中的域的,包括域名称,域类型,域是 ...
CIKM 2013推荐系统论文总结
这几天在家没事,介绍几篇CIKM上关于推荐系统的文章, Personalized Influence Maximization on Social Networks Social Recommenda ...