上周学习了BeautifulSoup的基础知识并用它完成了一个网络爬虫( 使用Beautiful Soup编写一个爬虫 系列随笔汇总 ),
BeautifulSoup是一个非常流行的Python网络抓取库,它提供了一个基于HTML结构的Python对象。
虽然简单易懂,又能非常好的处理HTML数据,但是相比Scrapy而言,BeautifulSoup有一个最大的缺点:慢。
Scrapy 是一个开源的
Python
数据抓取框架,速度快,强大,而且使用简单。
来看一个官网主页上的简单并完整的爬虫:

虽然只有10行左右的代码,但是它的确是一个完整的爬虫服务:
- 当执行scrapy runspider xxx.py命令的时候, Scrapy在项目里查找Spider(蜘蛛