Python爬虫Scrapy框架入门(0)

时间:2020-12-26 16:19:34

想学习爬虫,又想了解python语言,有个python高手推荐我看看scrapy。

scrapy是一个python爬虫框架,据说很灵活,网上介绍该框架的信息很多,此处不再赘述。专心记录我自己遇到的问题以及解决方案吧。

给几个链接吧,我是根据这几个东西来尝试学习的:

scrapy中文文档(0.24版,我学习的时候scrapy已经1.1了,也许有些过时):

  http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/overview.html

大神的博客介绍:

  入门实例:http://www.cnblogs.com/txw1958/archive/2012/07/16/scrapy-tutorial.html

  安装:http://www.cnblogs.com/txw1958/archive/2012/07/12/scrapy_installation_introduce.html

原汁原味的内容:

  官方tutorial:http://doc.scrapy.org/en/latest/intro/tutorial.html

scrapy官网(甭指望在这上面下载,反正我没在这上面下载scrapy):

  http://scrapy.org/

不建议在官方网站上下载!!!

为什么不建议在官网上下载(我也确实没找到官网上下载当前版本scrapy的whl地址,可能可以下载之前版本),因为scrapy需要依赖很多东西。根据大神的博客,如果你手动下载,至少要安装这几个依赖包:

  1. python——基本语言平台
  2. Twisted——事件驱动的网络引擎
  3. w3lib、libxml2——某个库文件
  4. pyOpenSSL——SSL协议,用于远程控制之类,我猜可能和分布式爬虫有关吧

然后才是安装scrapy。很麻烦啊。所以推荐直接用pip安装(scrapy官方也是推荐pip安装)。本机pip完成安装后,只需要在命令行输入:

    pip install scrapy

一条命令就OK了。简单方便。但是pip安装本身还会遇到很多问题,另开文章阐述

至此scrapy安装完成。反正身为python和scrapy双重小白的我,在搭建环境的时候就遇到了许多麻烦。本着学习和记录的态度,我会把遇到的困难、解决方案一一记录下来。文章以后也会慢慢更改。如果真的有人看这篇博文,请轻点喷,谢谢~╮(╯▽╰)╭