linux下,用crontab定时执行scrapy任务

时间:2022-06-03 08:01:33

之前尝试过很多方法用crontab执行scrapy的爬虫任务,但是都没出成功,总结下来有两点错误与相应的解决方法:

1、手动执行时,在工程目录下输入scrapy crawl xxx就可以执行爬虫脚本了,但是用crontab时,如果直接在crontab -e中输入00 00 * * * scrapy crawl xxx,定时任务是不会生效的,因为我们不知道crontab执行时,其所处的目录,很有可能就没有scrapy命令。

2、为了解决第一个问题,我尝试如下做法00 00 * * * /usr/local/bin/scrapy crawl xxx,貌似解决了第一个找不到scrapy命令的问题,但是又有新的问题出现,即找不到crawl命令,在不同的路径下scrapy后面跟的命令是不一样的,只有在scrapy的工程目录下才会有crawl命令,因此,我们需要先进入工程目录再执行启动命令,因此,书写如下crontab的指令:00 00 * * * cd /home/workspace/scrapy && /usr/local/bin/scrapy crawl xxx,就可以正常的执行定时任务了,有时候爬虫比较多,需要shell脚本集中管理00 00 * * * cd /home/workspace/scrapy && sh startup.sh,在shell脚本中的代码是:

#!/bin/sh
. ~/.bash_profile
/usr/local/bin/scrapy crawl xxx
/usr/local/bin/scrapy crawl xxx