scrapy学习笔记之hello world

1. 创建项目文档

在目标路径下，打开命令行，使用如下命令创建项目，例如项目名称为 "tutorial"：

  1 scrapy startproject tutorial

- 创建项目时，会自动创建对应的目录，所以没有必要自己先预先创建项目名称的目录

2. 使用pycharm创建项目

由于是在windows下采用pycharm的IDE进行开发，因此直接在pycharm上创建一个项目，目录为第一步用命令创建的目录。

如果不想用IDE，也可以直接用文本编辑器编辑，或者使用其他IDE。

3. 修改item

使用第一步的命令创建项目后，会有默认的item类，如果有必要的画，可自行的该类中添加对应的item字段，如：

  1 class DmozItem(scrapy.Item):

  2     # define the fields for your item here like:

  3     # name = scrapy.Field()

  4     title = scrapy.Field()

  5     link = scrapy.Field()

  6     desc = scrapy.Field()

  7

4. 创建spider

在 spiders/ 目录下创建对应的spider文件，如 demo_spider.py

  1 import scrapy

  2 from tutorial.items import DmozItem

  3

  4 class DmozSpider(scrapy.Spider):

  5     name = "dmoz"

  6     allowed_domains = ["dmoz.org"]

  7     start_urls = [

  8         "http://dmoztools.net/Computers/Programming/Languages/Python/Books/",

  9     ]

 10

 11     def parse(self, response):

 12         for sel in response.xpath('//ul/li'):

 13             item = DmozItem()

 14             item['title'] = sel.xpath('a/text()').extract()

 15             item['link'] = sel.xpath('a/@href').extract()

 16             item['desc'] = sel.xpath('text()').extract()

 17             yield item

 18

上述代码简要说明如下：

1) from tutorial.items import DmozItem：导入 Item 类

2) name = "dmoz"：spider的名字，在一个项目中，每个spider的名字都必须是唯一的，这个名字在运行时需要被指定，如要运行上述spider的命令为： scrapy crawl dmoz

3) strat_urls：用来指定目标url的数组，scrapy会根据这个数组中的url，逐个去产生Request请求，可以说是“爬虫”的入口或者起始点；除了通过数组方式指定外，也可以用函数的方式生成，指定对应的url和回调函数，例如：

  1 def start_requests(self):

  2    url_page = "http://dmoztools.net/Computers/Programming/Languages/Python/Books/"

  3    yield scrapy.Request(url=url_page, callback=self.parse)

  4

4）yield item：产生item数据，用于将item输出

5. 使用shell进行调试

对于大部分情况来说，可能不像例子这样，直接就把 parse 函数写出来了，中间肯定要一点一点去提取相关的有用信息，确认ok之后再一点一点往 parse 函数里面添， shell 的调用方式为在命令行下输入如下命令：

  1 scrapy crawl dmoz -o dmoz.json

  2

这部分参见另外的文章，在此不做赘述。

6. 运行spider

调试完成之后，就可以把爬虫运行起来了，运行方式如下：

scrapy crawl dmoz

如果需要把结果输出，可以采用 -o 设置输出文件，如：

  1 scrapy crawl dmoz -o dmoz.json

  2

说明

本文中的例子的代码来自Scrapy说明文档中的例子，不过用自己的语言和理解重新整理了思路，便于入手理解，但不是很全面，详细的内容可以参考官方文档；

scrapy学习笔记之hello world的更多相关文章

Scrapy&colon;学习笔记(2)——Scrapy项目
Scrapy:学习笔记(2)——Scrapy项目 1.创建项目创建一个Scrapy项目,并将其命名为“demo” scrapy startproject demo cd demo 稍等片刻后,Scr ...
Scrapy&colon;学习笔记(1)——XPath
Scrapy:学习笔记(1)——XPath 1.快速开始 XPath是一种可以快速在HTML文档中选择并抽取元素.属性和文本的方法. 在Chrome,打开开发者工具,可以使用$x工具函数来使用XPat ...
scrapy 学习笔记1
最近一段时间开始研究爬虫,后续陆续更新学习笔记爬虫,说白了就是获取一个网页的html页面,然后从里面获取你想要的东西,复杂一点的还有: 反爬技术(人家网页不让你爬,爬虫对服务器负载很大) 爬虫框架( ...
scrapy学习笔记(1)
初探scrapy,发现很多入门教程对应的网址都失效或者改变布局了,走了很多弯路.于是自己摸索做一个笔记. 环境是win10 python3.6(anaconda). 安装 pip install sc ...
Scrapy学习笔记(5)-CrawlSpider+sqlalchemy实战
基础知识 class scrapy.spiders.CrawlSpider 这是抓取一般网页最常用的类,除了从Spider继承过来的属性外,其提供了一个新的属性rules,它提供了一种简单的机制,能够 ...
scrapy 学习笔记2
本章学习爬虫的回调和跟踪链接使用参数回调和跟踪链接上一篇的另一个爬虫,这次是为了抓取作者信息 # -*- coding: utf-8 -*- import scrapy class Myspi ...
scrapy学习笔记一
以前写爬虫都是直接手写获取response然后用正则匹配,被大佬鄙视之后现在决定开始学习scrapy 一.安装 pip install scrapy 二.创建项目 scrapy startprojec ...
Scrapy 学习笔记（一）数据提取
Scrapy 中常用的数据提取方式有三种:Css 选择器.XPath.正则表达式. Css 选择器 Web 中的 Css 选择器,本来是用于实现在特定 DOM 元素上应用花括号内的样式这样一个功能的. ...
scrapy 学习笔记
1.scrapy 配合 selenium.phantomJS 抓取动态页面, 单纯的selemium 加 Firefox浏览器就可以抓取动态页面了, 但开启窗口太耗资源,而且一般服务器的linux 没 ...
scrapy学习笔记
1.scrapy用哪条命令行重新编辑已有的项目?cd projectname 2.如何在pycharm中开启scrapy?先在终端创建一个项目(即文件夹),再在pycharm中打开.

随机推荐

Linux安全基础：grep命令的使用
grep (缩写来自Globally search a Regular Expression and Print)是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来.Unix的 ...
&period;Net中的并行编程-4&period;实现高性能异步队列
上文<.Net中的并行编程-3.ConcurrentQueue实现与分析>分析了ConcurrentQueue的实现,本章就基于ConcurrentQueue实现一个高性能的异步队列,该队 ...
N的阶乘的长度
阶乘是乘法 , 乘法的话 , 几位数*几位数的位数就是哪两个几位数相加 . 这个可以用log10来解决 , 所以有如下代码 . #include<stdio.h> #include& ...
LibCurl笔记四
1,curl设置fiddler代理curl_easy_setopt(m_easyHandle, CURLOPT_PROXY, "127.0.0.1:8888"); 2,
Struts 2 之资源国际化
首先在struts.properties文件中加入以下内容: struts.custom.i18n.resources=messageResource 或在struts.xml中加入 <con ...
类成员（static）和final修饰符
在Java类里只能包含成员变量.方法.构造器.初始化块.内部类(包括接口.枚举)5种成员,类成员是用static来修饰的,其属于整个类. 当使用实例来访问类成员时,实际上依然是委托给该类来访问类成员, ...
redis过期机制
Redis会自己回收清理不用的数据吗? 如果能,那如何配置? 如果不能,如何防止数据累加后大量占用存储空间的问题? 之前一直接触Redis不是很深入,最近项目当中遇到一个需求场景,需要清空一些存放在R ...
【leetcode-100】简单树相关题目
100. 相同的树 (1过,熟练) 给定两个二叉树,编写一个函数来检验它们是否相同. 如果两个树在结构上相同,并且节点具有相同的值,则认为它们是相同的. 示例 1: 输入: 1 1 / \ / \ 2 ...
JSON数据之使用Fastjson进行解析（一）
据说FastJson是目前最快的解析Json数据的库,而且是国人开发出来的开源库.顶一下,付上官方网址:http://code.alibabatech.com/wiki/pages/viewpage. ...
HashSet TreeSet
1 HashSet 1.1 父类 java.lang.Object 继承者 java.util.AbstractCollection<E> 继承者 java.util.AbstractSe ...