手把手教你使用爬虫管理工具|Scrapyd的使用

时间:2024-03-21 13:18:34

Scrapyd-网页版分布爬虫管理器

 

手把手教你使用爬虫管理工具|Scrapyd的使用

 

scrapyd英文文档:https://scrapyd.readthedocs.io/en/stable/

scrapyd中文文档:https://piaosanlang.gitbooks.io/spiders/05day/section5.3.html

项目地址:https://github.com/scrapy/scrapyd

 

 

前言

 

      今天介绍的是scrapyd,是scrapy项目下的一个子项目,主要是用来便于管理分布式爬虫,根据上一篇分布式scrapy爬虫我们可以知道,我们写好分布式爬虫之后往往需要放到多个爬虫服务器上,当然也是可以放在一个服务器上,但是多个爬虫服务同时开启管理起来就比较麻烦,今天介绍的scrapyd就是用来管理多个并行爬虫的工具。

 

准备

 

  • 电脑一台

  • 服务器一台(也可以不用)

  • 之前的scrapy项目----news

 

 

scarpyd实战案例

 

1.安装环境

 

在windows环境下使用pip intsall scrapyd-client安装scrapyd客户端

 

手把手教你使用爬虫管理工具|Scrapyd的使用

 

之后在爬虫服务器端使用pip install scrapyd安装服务器端(我是用的是linux环境做服务器,linux的具体操作可以使看之前的推文linux教程)

 

手把手教你使用爬虫管理工具|Scrapyd的使用

 

在客户端找到python安装路径里的script文件,进入后你会发现里边有一个scrapyd-deploy是没有后缀的

手把手教你使用爬虫管理工具|Scrapyd的使用

在这个路径下新建一个bat文件,在里边输入以下内容

手把手教你使用爬虫管理工具|Scrapyd的使用

之后保存即可。

 

2.项目上传

 

在上传之前需要先修改一下news爬虫的内容,在爬虫项目根目录下的scrapy.cfg。

手把手教你使用爬虫管理工具|Scrapyd的使用

之后打开cmd进到爬虫的目录之后输入以下命令:

手把手教你使用爬虫管理工具|Scrapyd的使用

之后就将项目上传到服务器上了,然后在服务器输入scrapyd就打开了scrapyd服务器了。

 

3.启动爬虫

 

在客户端cmd输入:

curl http://服务器ip:6800/schedule.json -d project=工程名(news) -d spider=爬虫名(news_spider)

手把手教你使用爬虫管理工具|Scrapyd的使用

爬虫就自动开启了

 

4.关闭爬虫:

在客户端cmd输入:

curl http://爬虫ip:6800/cancel.json -d project=news -d job=jobid(后边会说明)

 

 

5.效果展示

 

手把手教你使用爬虫管理工具|Scrapyd的使用

 

手把手教你使用爬虫管理工具|Scrapyd的使用

手把手教你使用爬虫管理工具|Scrapyd的使用手把手教你使用爬虫管理工具|Scrapyd的使用

jobid相当于每个开启的爬虫的一个身份证,结束爬虫的时候需要用到。

 

 

常见问题

 

问题一:在客户端打不开服务器端管理网页

 

手把手教你使用爬虫管理工具|Scrapyd的使用

发现是本地环回地址

 

解决思路:在服务器端使用命令find / -name scrapyd.conf,找到配置文件之后,进行修改,将bind_address改成0.0.0.0(vi操作在linux入门中第三篇)

手把手教你使用爬虫管理工具|Scrapyd的使用

 

问题二:使用浏览器访问服务器地址的时候始终无法访问

 

解决思路:不要使用2345浏览器或者其他浏览器访问,换成Chrome就可以解决问题。

 

 

总结

 

在爬虫较多比较难管理的时候可是考虑使用scrapyd进行管理,管理起来比较方便,并且部署起来难度也不是很大。并且可以使用Gerapy和scrapyd相结合来实现可视化的效果。

 

 

 

 

 

手把手教你使用爬虫管理工具|Scrapyd的使用

 

相关文章