python爬虫自学宝典——运行spider

前文回顾
经过前面的讲解，我们已经写了一个小程序，用来爬取我的博客主页的博客信息。但是我们还没有将这个程序运行，什么意思呢？就是光说不练，假把式；光练不说，傻把式。运行虫子，很简单。
首先，用dos定位到你的项目目录中，然后在命令行中输入：

scrapy crawl demo_spider

demo_spider是我的虫子名，正确的命令格式——scrapy crawl spider_name是运行虫子的命令，运行上面命令，可以看到我们所做的工作结果如下：

python爬虫自学宝典——运行spider
记住，定位只需要定位到项目目录下，而不是spider目录下。虽然运行用的是spider虫子名，但是框架会自动配置检索运行，不必劳烦我们操心。

细心的朋友可以发现如下问题，为什么我的博客文章那么多，只能爬取一页呢？是不是虫子太笨了，其实不然，是我们没设置好。那么如何爬取下一页的信息呢？须知一般用虫子爬信息，大多都是以万起步的。那么大的数据量，一个页面肯定放不下，只能下一页，next，下一页了。下一章，讲如何爬取下一页information。

欲知后事如何，且听下回分解。

秒客网

python爬虫自学宝典——运行spider

相关文章