scrapy抓取拉勾网职位信息（八）——使用scrapyd对爬虫进行部署

上篇我们实现了分布式爬取，本篇来说下爬虫的部署。

分析：我们上节实现的分布式爬虫，需要把爬虫打包，上传到每个远程主机，然后解压后执行爬虫程序。这样做运行爬虫也可以，只不过如果以后爬虫有修改，需要重新修改好代码后，重新打包上传然后执行（当然你愿意每台登上去后修改代码也行）。本篇我们使用scrapd来进行部署。

使用scrapyd来部署爬虫大体只需要几步：

在需要运行爬虫的主机上安装scrapyd，并且启动scrapyd服务
使用scrapy-client把项目打包成egg文件，部署到scrapyd服务
使用scrapyd提供的网络API来对爬虫进行操作，包括启动爬虫、停止爬虫等操作。

一、安装相关的库

pip install scrapyd (需要运行爬虫的主机都要安装）

pip install scrapyd-client （本机主机安装即可，作用是为了把爬虫项目部署到远程主机的scrapyd去）

二、修改scrapyd配置文件

[root@kongqing /]# whereis scrapyd

scrapyd: /etc/scrapyd /root/.pyenv/shims/scrapyd

[root@kongqing /]# cd /etc/scrapyd

[root@kongqing scrapyd]# ls

scrapyd.conf

[root@kongqing scrapyd]# vim scrapyd.conf

bind_address=0.0.0.0  #修改为0.0.0.0可以使用其他任意主机进行连接

三、启动scrapyd，直接命令行输入scrapyd（这样就启动了一个网络的监听，端口默认是6800）

scrapy抓取拉勾网职位信息（八）——使用scrapyd对爬虫进行部署

四、使用本机浏览器打开47.98.xx.xx：6800 (前面换成自己安装好scrapyd的远程主机IP地址）

scrapy抓取拉勾网职位信息（八）——使用scrapyd对爬虫进行部署

解释一波：

jobs代表的就是爬虫项目
logs代表的是日志文件，也就是你爬虫运行时显示的那些信息
Documentation这个指的scrapyd的文档，教你对爬虫项目进行启停等操作的

当然，目前里面还没有项目，所以jobs、logs里面都是空的。

五、修改本地爬虫文件scrapy.cfg文件（前面解释过，这个文件是用来做爬虫部署用的）

[settings]

default = lagou.settings  

[deploy]

#url = http://localhost:6800/  #本地的直接能运行，我就不改了

project = lagou

[deploy:aliyun]  #：后面是别名，自己设置，用来识别部署的是哪台设备，避免弄混

url = http://47.98.xx.xx:6800/ #远程主机的地址及端口

project = lagou

六、使用scrapyd_client将项目部署到远程主机

在scrapy.cfg文件所在目录打开cmd命令行，（地址栏输入cmd，或者shift+右键打开）

scrapy抓取拉勾网职位信息（八）——使用scrapyd对爬虫进行部署

执行部署命令scrapyd-deploy aliyun --version 201812010050

scrapy抓取拉勾网职位信息（八）——使用scrapyd对爬虫进行部署

解释一波：

如果只输入命令scrapyd-deploy就是直接部署本机了，因为本机没有跟别名
aliyun代表的是我的远程主机，也就是scrapy.cfg文件中的[deploy:aliyun]这部分。建议大家加别名，方便识别管理。
--version是可选的，代表一个版本，后面的数字我是使用的当前时间，自己可以根据需要设置。默认是时间戳，也就是不使用--version它也会默认给你生成一个版本信息。

可以看到，成功执行部署命令后，本地项目目录多了两个文件夹

scrapy抓取拉勾网职位信息（八）——使用scrapyd对爬虫进行部署

七、使用scrapyd网络API启停爬虫

打开API文档看一下，我们可以看到有以下这些方法：

scrapy抓取拉勾网职位信息（八）——使用scrapyd对爬虫进行部署

这里只解释两个用法，其他的自己看文档。

shedule.json：运行一个爬虫(会返回一个jobid），文档示例用法如下：

$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider

cancel.json：停止一个爬虫（需要有jobid)，文档示例用法如下：

$ curl http://localhost:6800/cancel.json -d project=myproject -d job=6487ec79947edab326d6db28a2d86511e8247444

现在我们启动我们自己在远程主机上的爬虫项目。

首先执行以下代码：

curl http://47.98.xx.xx:6800/schedule.json -d project=lagou -d spider=lagou_c   #修改为自己的远程主机IP，项目名是lagou，spider名字是lagou_c

我们用浏览器打开47.98.xx.xx：6800看下jobs，可以看到有一个爬虫在运行了

scrapy抓取拉勾网职位信息（八）——使用scrapyd对爬虫进行部署

注意到那个蓝色的Log了么，爬虫的调试信息都在这里，我们点击就可以看到爬虫运行时的信息了

scrapy抓取拉勾网职位信息（八）——使用scrapyd对爬虫进行部署

现在我们停止这个爬虫，使用命令

curl http://47.98.xx:xx/cancel.json -d project=lagou -d job=1aae6d70f51f11e8983600163e0403c8 （需要修改为自己的远程主机IP，项目名称，job就是之前运行时候的jobid

我们现在再到网页里看一下，显示刚刚那个爬虫已经停止了：

scrapy抓取拉勾网职位信息（八）——使用scrapyd对爬虫进行部署

这样我们使用scrapyd就完成了爬虫部署到远程服务器的过程，如果你觉得使用网络API调用的方式不习惯的话，也可以用scrapyd_api来调用，不过需要生成egg文件，地址在这里，有兴趣的可以尝试。

scrapy抓取拉勾网职位信息（八）——使用scrapyd对爬虫进行部署的更多相关文章

scrapy抓取拉勾网职位信息（一）——scrapy初识及lagou爬虫项目建立
本次以scrapy抓取拉勾网职位信息作为scrapy学习的一个实战演练 python版本:3.7.1 框架:scrapy(pip直接安装可能会报错,如果是vc++环境不满足,建议直接安装一个visua ...
scrapy抓取拉勾网职位信息（三）——爬虫rules内容编写
在上篇中,分析了拉勾网需要跟进的页面url,本篇开始进行代码编写. 在编写代码前,需要对scrapy的数据流走向有一个大致的认识,如果不是很清楚的话建议先看下:scrapy数据流本篇目标:让拉勾网爬 ...
scrapy抓取拉勾网职位信息（二）——拉勾网页面分析
网站结构分析: 四个大标签:首页.公司.校园.言职我们最终是要得到详情页的信息,但是从首页的很多链接都能进入到一个详情页,我们需要对这些标签一个个分析,分析出哪些链接我们需要跟进. 首先是四个大标签 ...
scrapy抓取拉勾网职位信息（四）——对字段进行提取
上一篇中已经分析了详情页的url规则,并且对items.py文件进行了编写,定义了我们需要提取的字段,本篇将具体的items字段提取出来这里主要是涉及到选择器的一些用法,如果不是很熟,可以参考:sc ...
scrapy抓取拉勾网职位信息（七）——数据存储（MongoDB，Mysql，本地CSV）
上一篇完成了随机UA和随机代理的设置,让爬虫能更稳定的运行,本篇将爬取好的数据进行存储,包括本地文件,关系型数据库(以Mysql为例),非关系型数据库(以MongoDB为例). 实际上我们在编写爬虫r ...
scrapy抓取拉勾网职位信息（七）——实现分布式
上篇我们实现了数据的存储,包括把数据存储到MongoDB,Mysql以及本地文件,本篇说下分布式. 我们目前实现的是一个单机爬虫,也就是只在一个机器上运行,想象一下,如果同时有多台机器同时运行这个爬虫 ...
scrapy抓取拉勾网职位信息（六）——反爬应对（随机UA，随机代理）
上篇已经对数据进行了清洗,本篇对反爬虫做一些应对措施,主要包括随机UserAgent.随机代理. 一.随机UA 分析:构建随机UA可以采用以下两种方法我们可以选择很多UserAgent,形成一个列表 ...
scrapy抓取拉勾网职位信息（五）——代码优化
上一篇我们已经让代码跑起来,各个字段也能在控制台输出,但是以item类字典的形式写的代码过于冗长,且有些字段出现的结果不统一,比如发布日期. 而且后续要把数据存到数据库,目前的字段基本都是string ...
【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...

随机推荐

公共代码参考（httpclient）
public class HttpClientUtils { private static final String CHARSET = "UTF-8"; /* * http ge ...
JAVA设计模式之观察者模式（JDK内置实现）
简介:使用JAVA内置的帮你搞定观察者模式. 1. 先把类图放在这里: (1). Observable类追踪所有的观察者,并通知他们. (2). Observer这个接口看起来很熟悉,它和我们之前写的 ...
寻找下一款Prisma APP：深度学习在图像处理中的应用探讨（阅读小结）
原文链接:https://yq.aliyun.com/articles/61941?spm=5176.100239.bloglist.64.UPL8ec 某会议中的一篇演讲,主要讲述深度学习在图像领域 ...
dataTables表格分页排序等交互
官网: https://www.datatables.net/ 中文参考网站: http://datatables.club/ datatables+bootstrap示例: http://sandb ...
如何修改image文件
方法一:mount成为一个loop device 参考http://smilejay.com/2012/08/mount-an-image-file/ 方法一:找出分区开始的开始位置,使用mount命 ...
js实现上传图片回显功能
用到h5技术 <img id="headimg" src="<%=path%>/resources/images/icon4.png" sty ...
rabbitmq的相关知识
1. 如何确保消息正确地发送至RabbitMQ? RabbitMQ使用发送方确认模式,确保消息正确地发送到RabbitMQ. 发送方确认模式:将信道设置成confirm模式(发送方确认模式),则所有在 ...
JAVA设计模式——第 5 章工厂方法模式【Factory Method Pattern】（转）
女娲补天的故事大家都听说过吧,今天不说这个,说女娲创造人的故事,可不是“造人”的工作,这个词被现代人滥用了.这个故事是说,女娲在补了天后,下到凡间一看,哇塞,风景太优美了,天空是湛蓝的,水是清澈的,空 ...
ibatis 中&num;和 &dollar; 符号的区别
1.数据类型匹配 #:会进行预编译,而且进行类型匹配(自动确定数据类型): $:不进行数据类型匹配. 2.实现方式: # 用于变量替换(先生成一个占位符,然后替换) select * from use ...
java多线程编程核心技术-笔记
一.第一章 1.自定义线程类中实例变量针对其他线程有共享和不共享之分,自定义线程中的变量,如果是继承自thread类,则每个线程中的示例变量的更改,不影响其他线程2.当多个线程去访问一个局部变量是会产 ...