三、Scrapy 命令介绍

时间:2024-03-23 21:27:22

Scrapy必须要背会的命令

1、创建项目:scrapy startproject  ITcast

startproject:表示创建项目

ITcast:表示创建的项目名

在Windows的cmd下输入命令后会在当前目录下看到一个ITcast文件夹,目录结构大致是:

三、Scrapy 命令介绍

各个主要文件的作用:

scrapy.cfg 项目的配置文件

ITcast/:项目的python模块,将会从这里引用代码

ITcast/item.py:项目的目标文件,存储字段

ITcast/pipelines.py:项目的管道文件

ITcast/settings.py:项目的设置文件

ITcast/spiders/:存储爬虫代码目录

 

2、创建爬虫:cd 命令进入ITcast文件夹cmd,输入以下命令

scrapy genspider itcast  “http://www.itcast.cn”

genspider: 表示生成一个爬虫(默认是scrapy.Spider类)

Itcast:表示爬虫名(对应爬虫代码里面的name 参数)

“http://www.itcast.cn”:表示允许爬虫爬取的域范围

打开ITcast/spiders/文件夹会生成一个文件itcast.py,生成基于scrapy.Spider类的模板,如下

三、Scrapy 命令介绍

3、执行爬虫:

在ITcast文件夹下的cmd输入命令:scrapy crawl itcast

crawl:表示启动一个scrapy爬虫

Itcast:表示要启动的爬虫名(对于爬虫代码里面的name参数)