最近用xpath,刚开始有很多问题
用测试代码跑的时候经常获取不到值。
第一种情况:
page= etree.parse('text.html') #text.html为一个html文件
<class 'lxml.etree._ElementTree'>
page = etree.HTML(html) #heml为一个字符串
<class 'lxml.etree._Element'>
一开始通过使用字符串进行解析,通过page.xpath()进行元素获取,找不到值,后面发现这个type是“lxml.etree._Element” ,而不是“lxml.etree._ElementTree”
获取所有元素的时候两个都行,但是通过id或者class获取时下面的那个获取不到。使用第一种就行。
第二种情况:
/ 从根节点选取。
// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
这两个符号是官网解释。 下面是我的代码
html.xpath('/div[contains(@id,"test")]')
html.xpath('//div[contains(@id,"test")]')
发现第一个中不到元素,第二个可以。
附上html代码:
<?xml version="1.0" encoding="ISO-8859-1"?>
<bookstore>
<book class="ook">
book1111
<title lang="eng">Harry Potter</title>
<price id='11'>29.99</price>
</book>
<book class="ook">
book2222
<title lang="eng">Learning XML</title>
<price>39.95</price>
</book>
<div id="test" class="rr"><title id="eng">Learning XML</title>
</div>
</bookstore>
目前存在这些问题体,后面遇到再加。