爬虫_糗事百科（scrapy）

糗事百科scrapy爬虫笔记

1.response是一个'scrapy.http.response.html.HtmlResponse'对象，可以执行xpath,css语法来提取数据

2.提取出来的数据，是一个'Selector'或者是一个'SelectorList'对象，如果想要获取其中的字符串，那么应该执行'getall'或者'get'方法

3.getall方法，获取'Selector'中的所有文本，返回的是一个列表

4.get方法，获取的是'Selector'中的第一个文本，返回的是一个str类型

5.如果数据解析回来，要传给pipelines处理，那么可以使用'yield'来返回；如果不使用yield，则要创建一个列表存储数据，最后返回这个列表

6.item：建议在'items.py'中定义好模型，以后就不要使用字典

7.pipelines：这个是专门用来存储数据的，其中有三个方法常用：

　　　　'open_spider(self, spider)'：当爬虫打开时执行

　　　　'process_item(self, item, spider)'：当爬虫有item传过来的时候会被调用

　　　　'close_spider(self, spider)'：当爬虫关闭的时候调用

　　　　要激活pipelines，在'settings.py' 68行

秒客网