一、任务描述
本实验任务主要对Scrapy命令行工具进行一些基本操作,通过完成本实验任务,要求学生熟练掌握Scrapy命令行工具,并对Scrapy命令行的基本操作进行整理并填写工作任务报告。
二、任务目标
1、掌握Scrapy的命令行操作
三、任务环境
Ubuntu16.04、Python2.7
四、任务分析
Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
五、任务实施
步骤1、环境准备
右击Ubuntu操作系统桌面,从弹出菜单中选择【Open in Terminal】命令 打开终端。
通过【cd /home】切换到home目录下。【ls】查看该目录下的所有内容。
【mkdir scrapy】在home目录下创建scrapy文件夹。
步骤2、全局命令
【scrapy startproject [project_name]】用于创建一个名为project_name的Scrapy项目。
【scrapy settings [options]】在项目中运行时,该命令将会输出项目的设定值,否则输出Scrapy默认设定
【scrapy shell [url]】用来启动Scrapy shell,,URL为可选
【scrapy fetch [url]】使用scrapy下载器下载给定的URL,并将获取到的内容送到标准输出。该命令以Spider下载页面的方式获取页面,如果是在项目中运行,fetch将会使用项目中Spider的属性访问。如果在非项目中运行,则会使用默认Scrapy downloader设定。
【scrapy view [url]】在浏览器中打开给定的URL,并以Scrapy spider获取到的形式展示
浏览器打开百度页面。
【scrapy version [-v]】输出Scrapy版本,配合-v使用,该命令同时输出Python、Twisted以及平台的信息,方便Bug提交。
【scrapy bench】用于运行benchmark测试,测试Scrapy在硬件上的效率
【scrapy runspider spider_file.py】在未创建项目的情况下,运行一个编写好的spider模块。
步骤3、项目命令
【cp -R /home/soft/movie /home/scrapy/】拷贝Scrapy项目
【scrapy crawl [spider]】用来使用Spider进行爬取
查看爬取后的内容。
【scrapy check [spider]】运行contract检查。
【scrapy list】列出当前项目中所有可用的spider,每行输出一个spider。
【scrapy edit [spider]】使用设定的编辑器编辑给定的spider。
【scrapy parse [url] [options]】获取给定的URL并使用相应的Spider分析处理。
【scrapy genspider [-t template] [name] [domail]】可以在当前项
目中创建Spider。