Scrapy：创建爬虫程序的方式

Windows 10家庭中文版，Python 3.6.4，Scrapy 1.5.0，

在Scrapy中，建立爬虫程序或项目的方式有两种（在孤读过Scrapy的大部分文档后）：

1.继承官方Spider类（5个）

2.命令行工具scrapy genspider（4个）

方式一：继承官方Spider类

下图是官网的示例：继承了scrapy.Spider

Scrapy：创建爬虫程序的方式

这里的scrapy.Spider是在scrapy包的__init__.py中导入的，实际上来自于scrapy.spiders.Spiders：

Scrapy：创建爬虫程序的方式

除了Spider类以外，scrapy内部还有几个Generic Spiders类：

-class scrapy.spiders.CrawlSpider
-class scrapy.spiders.XMLFeedSpider
-class scrapy.spiders.CSVFeedSpider
-class scrapy.spiders.SitemapSpider

上面的几个Spider类都可以被继承以实现自己的爬虫程序（目前自己不是很熟悉，仅在前面测试过SitemapSpider，但其官网SitemapSpider的示例没有name属性，故需要添加后才可以运行）。

更多资料：Scrapy官方Spiders文档

方式二：命令行工具scrapy genspider

还可以使用scrapy genspider命令建立爬虫程序。

在官文Command line tool介绍中，genspider是一个global命令，这意味着可以使用genspider在 Scrapy项目内或外都可以建立爬虫程序。

下面几个配置项需要注意：

-scrapy genspider -h

genspider的帮助信息（下图展示了部分Usage信息）。

Scrapy：创建爬虫程序的方式

-scrapy genspider -l

显示可以使用的爬虫模板，就是新建爬虫程序可以继承哪个内部爬虫类。这里存在一个疑问，没有SitemapSpider的模板。

Scrapy：创建爬虫程序的方式

-scrapy genspider -t TEMPLATE ...

使用TEMPLATE对应的内部爬虫类建立爬虫程序（下图分别用四种模板建立了四个爬虫程序，其实，basic是默认的，可以不用写）。

Scrapy：创建爬虫程序的方式

打开其中的www.techmeme.com的爬虫程序看看：使用模板xmlfeed建立，继承了XMLFeedSpider。

Scrapy：创建爬虫程序的方式

但这里存在问题：www.techmeme.com（一个很有名的科技资讯网站）的主页是HTTPS的，而这里的start_urls显示的是HTTP！

前面看资料说在DNS服务器还是什么地方可以配置自动跳转到HTTPS版本。可是，这里是否需要更改为HTTPS呢？孤认为是需要的！做试验验证会更好哦！）

Scrapy：创建爬虫程序的方式

注意，上面是使用genspider命令在项目外建立爬虫程序，而要在项目内建立爬虫程序时，需要选择Scrapy项目中的spiders目录，否则，无法自动检测到（按理说是这样，总不能在项目下的任何位置建立吧，项目要有项目的规矩）。

总结

从建立爬虫程序的效率来看，使用命令行的方式快速很多，但不能创建SitemapSpider类；

上面讲的都是继承Scrapy内部的爬虫类，那么，是否可以继承自定义的爬虫类呢？按理说是可以的，实际上也应该可以，需要验证；

无论哪种方式，都需要后续更多的coding工作，因此，在继续之前，请熟悉Scrapy的爬虫的工作机制，见官文Spiders；

如果还有更多的方式，或者，读者自己研发的方式，欢迎告知，会很感激；

当然，使用其它命令行工具也可以建立一些看不见的爬虫程序，就不是本文所涉及的了，需要更理解Scrapy才可以。

0704-0951 Update

关于www.techmeme.com的爬虫程序，使用runspider进行了测试：

-默认的HTTP时会发生重定向（302）

Scrapy：创建爬虫程序的方式

-更改为HTTPS后则不会发生重定向

Scrapy：创建爬虫程序的方式

也可以使用scrapy parse命令进行测试，但是，首先要将上面的myspider2放到某个Scrapy项目的spiders目录下：

scrapy parse --spider=myspider2 -d 3 "https://www.techmeme.com"

Scrapy：创建爬虫程序的方式的更多相关文章

Scrapy：运行爬虫程序的方式
Windows 10家庭中文版,Python 3.6.4,Scrapy 1.5.0, 在创建了爬虫程序后,就可以运行爬虫程序了.Scrapy中介绍了几种运行爬虫程序的方式,列举如下: -命令行工具之s ...
Scrapy创建爬虫项目
1.打开cmd命令行工具,输入scrapy startproject 项目名称 2.使用pycharm打开项目,查看项目目录 3.创建爬虫,打开CMD,cd命令进入到爬虫项目文件夹,输入scrapy ...
Scrapy框架-爬虫程序相关属性和方法汇总
一.爬虫项目类相关属性 name:爬虫任务的名称 allowed_domains:允许访问的网站 start_urls: 如果没有指定url,就从该列表中读取url来生成第一个请求 custom_se ...
使用Scrapy编写爬虫程序中遇到的问题及解决方案记录
1.创建与域名不一致的Request时,请求会报错解决方法:创建时Request时加上参数dont_filter=True 2.当遇到爬取失败(对方反爬检测或网络问题等)时,重试,做法为在解析res ...
scrapy工具创建爬虫工程
1.scrapy创建爬虫工程:scrapy startproject scrape_project_name >scrapy startproject books_scrapeNew Scrap ...
第三百三十一节，web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令
第三百三十一节,web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令 Scrapy框架安装 1.首先,终端执行命令升级pip: python -m pip install --u ...
十 web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令
Scrapy框架安装 1.首先,终端执行命令升级pip: python -m pip install --upgrade pip2.安装,wheel(建议网络安装) pip install wheel ...
liunx系统下crontab定时启动Scrapy爬虫程序
定时启动爬虫 # 查看命令得绝对路径 # which scrapy # cd到爬虫得项目目录下 + scrapy命令得绝对路径 + 启动命令 */5 * * * * cd /opt/mafengwo/ ...
使用Scrapy创建一个爬虫
使用Scrapy创建一个爬虫创建项目您可以使用下面的命令来创建 Scrapy 项目: scrapy startproject 项目名称例:scrapy startproject scrapy_p ...

随机推荐

asp&period;net MVC4——省市三级联动数据库
数据库设计
ES6 - Note4：Class类
1.Class类的介绍在ES6中新增了Class类的概念,让语法看起来更像是面向对象编程,其实这可以说是一个语法糖,ES5可以做到Class绝大部分功能,但也有一些不同.在ES6以前,可以通过构造函 ...
SSH框架中 Spring设置定时器 Quartz
一,首先下载quartz-1.6.0.jar架包,到lib目录下二,写你自己定时器业务方法 package com.lbnet.lzx.timing; import org.quartz.JobEx ...
coherence配置说明
经过上篇 coherence初识 ,最近算是和coherence杠上了,针对coherence3.5.3这个版本,把学到的东西整理下 1. 这个jar包有点大,4M多,首先打开coherence.ja ...
thinkphp 5内置验证规则-基本版
内置规则系统内置的验证规则如下: 格式验证类 require 验证某个字段必须,例如: 'name'=>'require' number 或者 integer 验证某个字段的值是否为数字(采用 ...
shell 备份代码
#!/bin/sh # 备份代码 basedir=/data/backup www_src=$basedir/$(date +%F_$H) [ ! -d "$www_src" ] ...
Dockerfile中ENTRYPOINT 和 CMD的区别
一.dockerfile中的 CMD 1.每个dockerfile中只能有一个CMD如果有多个那么只执行最后一个. 2.CMD 相当于启动docker时候后面添加的参数看,举个简单例子: docker ...
Bootstrap4响应式布局之栅格系统
前面说了Bootstrap4的下载和简单使用,现在我们接着往下学习,Bootstrap4的响应式布局主要依靠栅格系统来实现的.面老K先来讲解一下Bootstrap4的栅格系统,让你能够更快的了解Boo ...
php文件下载（解决文件下载后多几个字节的问题）与封装成类的例子
php文件下载比较常见,网上的资料比较多,在此不再强调怎么去实现(因为也是网上看的).下面主要说明的是下载代码的注意点. php下载文件主要是把文件以字节流直接输出,也就是echo fread($fi ...
Html&period;Partial（）传值的问题
@Html.Partial("Test", Model, new ViewDataDictionary { { "a", "b" } }); ...