Scrapy必须要背会的命令
1、创建项目:scrapy startproject ITcast
startproject:表示创建项目
ITcast:表示创建的项目名
在Windows的cmd下输入命令后会在当前目录下看到一个ITcast文件夹,目录结构大致是:
各个主要文件的作用:
scrapy.cfg 项目的配置文件
ITcast/:项目的python模块,将会从这里引用代码
ITcast/item.py:项目的目标文件,存储字段
ITcast/pipelines.py:项目的管道文件
ITcast/settings.py:项目的设置文件
ITcast/spiders/:存储爬虫代码目录
2、创建爬虫:cd 命令进入ITcast文件夹cmd,输入以下命令
scrapy genspider itcast “http://www.itcast.cn”
genspider: 表示生成一个爬虫(默认是scrapy.Spider类)
Itcast:表示爬虫名(对应爬虫代码里面的name 参数)
“http://www.itcast.cn”:表示允许爬虫爬取的域范围
打开ITcast/spiders/文件夹会生成一个文件itcast.py,生成基于scrapy.Spider类的模板,如下
3、执行爬虫:
在ITcast文件夹下的cmd输入命令:scrapy crawl itcast
crawl:表示启动一个scrapy爬虫
Itcast:表示要启动的爬虫名(对于爬虫代码里面的name参数)