Scrapy选择器的用法

1.构造选择器：

>>> response = HtmlResponse(url='http://example.com', body=body)

>>> Selector(response=response).xpath('//span/text()').extract()

[u'good']

2.使用选择器（在response使用xpath或CSS查询）：

.xpath() 及 .css() 方法返回一个类 SelectorList 的实例, 它是一个新选择器的列表。

>>> response.xpath('//title/text()')

[<Selector (text) xpath=//title/text()>]

>>> response.css('title::text')

[<Selector (text) xpath=//title/text()>]

xpath中 //选取标签，/选择属性， CSS中用 :: 选取属性。

调用 extract() 来获取标签内容，使用extract_frist()来获取第一个元素内容。

>>> response.css('title::text').extract()

[u'Example website']

使用@或attr()来获取属性。

>>> response.xpath('//base/@href').extract()

[u'http://example.com/']

>>> response.css('base::attr(href)').extract()

[u'http://example.com/']

获取指定内容，如image。

>>> response.xpath('//a[contains(@href, "image")]/@href').extract()

[u'image1.html',

 u'image2.html',

 u'image3.html',

 u'image4.html',

 u'image5.html']

>>> response.css('a[href*=image]::attr(href)').extract()

[u'image1.html',

 u'image2.html',

 u'image3.html',

 u'image4.html',

 u'image5.html']

结合正则表达式。

>>> response.xpath('//a[contains(@href, "image")]/text()').re(r'Name:\s*(.*)')

[u'My image 1',

 u'My image 2',

 u'My image 3',

 u'My image 4',

 u'My image 5']

Scrapy选择器的用法的更多相关文章

scrapy选择器主要用法
# 命令行输入:scrapy shell +链接,会自动请求url,得到的相应默认为response,开启命令行交互模式 scrapy shell http://doc.scrapy.org/en/l ...
Scrapy框架中选择器的用法【转】
Python爬虫从入门到放弃(十四)之 Scrapy框架中选择器的用法请给作者点赞 --> 原文链接 Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpa ...
scrapy框架中选择器的用法
scrapy框架中选择器的用法 Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中 ...
CSS中&colon;before和&colon;after选择器的用法
在线演示这次给大家带来的是对话气泡效果,主要是演示了 :before / :after 和 border 的用法,赶快来围观吧. 阅读原文:CSS中:before和:after选择器的用法
Python爬虫从入门到放弃（十四）之 Scrapy框架中选择器的用法
Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTM ...
Python之爬虫（十六） Scrapy框架中选择器的用法
Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTM ...
Scrapy中选择器的用法
官方文档:https://doc.scrapy.org/en/latest/topics/selectors.html Using selectors Constructing selectors R ...
4-----Scrapy框架中选择器的用法
Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTM ...
scrapy选择器归纳
python 爬虫: srcrapy框架xpath和css选择器语法 Xpath基本语法一.常用的路径表达式: 表达式描述实例 nodename 选取nodename节点的所有子节点 //div ...

随机推荐

20145223《Java程序程序设计》第8周学习总结
20145223 <Java程序设计>第8周学习总结教材学习内容总结第十四章 NIO与NIO2 ·NIO使用频道(Channel)来衔接数据节点,在处理数据时,NIO可以让你设定缓冲区 ...
[AngularJS] Using AngularJS&&num;39&semi;s ngClass
.blue{ color: blue } .bold{ font-weight: bold; } .large{ font-size: 40px; } ngClass can accept an ar ...
why is agreement hard in a distributed system&quest;
same question as: why is PAXOS necessary? 1, what if >1 nodes become leaders simultaneously? that ...
SSH 协议的 ssh StrictHostKeyChecking
项目的SFTP用到了这个参数: @Override public PooledObject<ChannelSftp> makeObject() throws Exception { JSc ...
delphi怎样把子窗体显示在pagecontrol的tabsheet
https://bbs.csdn.net/topics/391980918 unit Unit1; interface uses Winapi.Windows, Winapi.Messages, Sy ...
java获取文件列表,并按照目录的深度及文件名的拼音的升序排列
java实现在线浏览zip文件及文件下载首先用java读出目录或是zip下的所有文件 1KG_20140718_HD/Readme-说明.htm:3.00KB1KG_20140718_HD/一键GH ...
ansible 快速入门
安装 $ sudo apt-get install software-properties-common $ sudo apt-add-repository ppa:ansible/ansible $ ...
SAP字段带空格，导致日期转换失败，提示not a vaild month
执行此节点会报以下错误,ORA-01843,no a valid month,提示月份转换异常尝试增加条件也仍然提示错误:and VBEP.EDATU<>'00000000' and V ...
使用HTML5的Notification API制作web通知的教程（转）
var notification=new Notification(‘Notification Title',{ body:'Your Message' }); 上面的代码构造了一个简陋的通知栏.构造 ...
【c++】重载操作符
目录输入和输出操作符算术操作符和关系操作符下标操作符自加.自减操作符成员访问操作符 1 输入和输出操作符 1.1 输出操作符 1.1.1 示例 #include <iostream& ...