scrapyd windows环境下安装和使用

时间:2024-03-17 12:21:16

scrapyd安装

打开命令行工具输入
命令:pip install scrapyd
scrapyd windows环境下安装和使用
##启动scrapyd服务
scrapyd windows环境下安装和使用
在浏览器中输入127.0.0.1:6800
如图启动成功
scrapyd windows环境下安装和使用

  1. 关闭服务,新建一个文件夹(名字自定义但是建议起名与scrapyd有关系,方便记忆),进入该文件夹,在该路径下打开命令行工具,输入:scrapyd 命令并执行会多出一个abs的空文件夹,用来存放爬虫项目的数据文件。
    如图:
    scrapyd windows环境下安装和使用
  2. 安装scraoyd-client模块
    简介:这个模块是专门用来打包scrapy爬虫的项目到scrapyd中。
    安装过程:
    (1).进入安装scraoyd的环境
    (2).打开命令行工具执行命令:pip install scrapyd
    (3).安装完后会在scrapyd中出现scrapyd-deploy,这个scrapyd-deploy无后缀文件是启动文件,在Linux系统下可以远行,在windows下是不能运行的,所以我们需要编辑一下使其在windows可以运行。
    如图:
    scrapyd windows环境下安装和使用
    新建一个新的scrapyd-deploy.bat文件,输入配置:
    @echo off
    “C:\Users\qianzhen\Envs\scrapySpider\Scripts\python.exe” “C:\Users\qianzhen\Envs\scrapySpider\Scripts\scrapyd-deploy” %1 %2 %3 %4 %5 %6 %7 %8 %9
    (路径需要该成自己的)
    如图:
    scrapyd windows环境下安装和使用
    (4).找到你的爬虫项目进入到拥有scrapy.cfg文件的目录下
    如图:
    scrapyd windows环境下安装和使用
    进入命令行输入命令:scrapyd-client
    如图就成功了:
    scrapyd windows环境下安装和使用

(5).打开爬虫项目中的scraoy.cfg文件,这个文件就是给scraoyd-depoly使用的将url这行代码接触注释,并且给设置你的部署名称。
scrapyd windows环境下安装和使用
(6).再次执行
在命令行中:scrapyd-deploy -l 启动服务
scrapyd windows环境下安装和使用
(7).打包前,执行一个命令 ,scrapy list ,这个命令执行说明可以进行打包了。
注意执行 scrapy list 命令的时候很有可能出现错误,如果是python无法找到scrapy项目,需要在scrapy项目里的settings.py配置文件里设置成python可识别路径。
需要在scrapy项目里的settings.py配置文件里设置成python可识别路径
将当前项目的一级目录TotalSpider目录添加到python可以识别目录中
BASE_DIR = os.path.dirname(os.path.abspath(os.path.dirname(file)))
sys.path.insert(0, os.path.join(BASE_DIR, “TotalSpider”))

(8).到此我们就可以开始打包scrapy项目到scrapyd了,用命令结合scrapy项目中的scrapy.cfg文件设置来打包

执行打包命令:scrapyd-deploy 部署名称 -p 项目名称

如图:打包成功
scrapyd windows环境下安装和使用

(9).到这里就已经成功了可以去127.0.0.1:6800 查看运行状态

(10).常规操作:
停止爬虫
curl http://localhost:6800/cancel.json -d project=scrapy项目名称 -d job=运行ID

删除scrapy项目
注意:一般删除scrapy项目,需要先执行命令停止项目下在远行的爬虫
curl http://localhost:6800/delproject.json -d project=scrapy项目名称

查看有多少个scrapy项目在api中
curl http://localhost:6800/listprojects.json

查看指定的scrapy项目中有多少个爬虫
curl http://localhost:6800/listspiders.json?project=scrapy项目名称

总结几个请求url
1、获取状态
http://127.0.0.1:6800/daemonstatus.json
2、获取项目列表
http://127.0.0.1:6800/listprojects.json
3、获取项目下已发布的爬虫列表
http://127.0.0.1:6800/listspiders.json?project=myproject
4、获取项目下已发布的爬虫版本列表
http://127.0.0.1:6800/listversions.json?project=myproject
5、获取爬虫运行状态
http://127.0.0.1:6800/listjobs.json?project=myproject
6、启动服务器上某一爬虫(必须是已发布到服务器的爬虫)
http://127.0.0.1:6800/schedule.json (post方式,data={“project”:myproject,“spider”:myspider})
7、删除某一版本爬虫
http://127.0.0.1:6800/delversion.json
(post方式,data={“project”:myproject,“version”:myversion})
8、删除某一工程,包括该工程下的各版本爬虫
http://127.0.0.1:6800/delproject.json(post方式,data={“project”:myproject})