爬虫框架Scrapy 之(二) --- scrapy文件

框架简介

核心部分：引擎、下载器、调度器
自定义部分： spider(自己建的爬虫文件)、管道(pipelines.py)

目录结构

    firstSpider
        firstSpider
            spiders           爬虫目录（写代码位置）
                __init__.py
                myspider.py   自己建的爬虫文件,以后的爬虫代码写在这里
            __init__.py
            items.py          定义数据结构地方
            middlewares.py    中间件（了解）
            pipelines.py      管道文件
            settings.py       项目配置文件
        scrapy.cfg

项目处理

项目创建处理，里面是没有爬虫的，我们需要通过指令来创建一个爬虫： cd firstSpider/firstSpider scrapy genspider qiubai “www.qiushibaike.com" 以上指令完事后，就会在firstSpider/firstSpider/spiders里面自动创建一个qiubai.py name: 爬虫的名字，启动的时候根据爬虫的名字启动项目 allowed_domains：允许的域名，就是爬取的时候这个请求要不要发送，如果是该允许域名之下的url，就会发送，如果不是，则过滤掉这个请求，这是一个列表，可以写多个允许的域名 start_urls：爬虫起始url，是一个列表，里面可以写多个，一般只写一个 def parse(self, response): 这个函数非常重要，就是你以后写代码的地方，parse函数名是固定的，当收到下载数据的时候会自动的调用这个方法，该方法第二个参数为response，这是一个响应对象，从该对象中获取html字符串，然后解析之。【注】这个parse函数必须返回一个可迭代对象（3）定制item.py，其实就是您的数据结构，格式非常简单，复制粘贴即可

秒客网

爬虫框架Scrapy 之(二) --- scrapy文件

框架简介

目录结构

项目处理

相关文章