使用python将网页抓取下来之后,下一步我们就应该解析网页,提取我们所需要的内容了,在python里提供了一个简单的解析模块HTMLParser类,使用起来也是比较简单的,解析语法没有用到XPath类似的简洁模式,但新手用起来还是比较容易的,看下面的例子:
现在一个模拟的html文件:
1
|
< html > < title id = 'main' mouse = '你好' >我是标题</ title >< body >我是内容</ body > </ html >
|
需求是,提取出标题的属性值,以及内容:
代码如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
|
import html.parser as h
class MyHTMLParser(h.HTMLParser):
a_t = False
def handle_starttag( self , tag, attrs):
#print("开始一个标签:",tag)
print ()
if str (tag).startswith( "title" ):
print (tag)
self .a_t = True
for attr in attrs:
print ( " 属性值:" ,attr)
def handle_endtag( self , tag):
if tag = = "title" :
self .a_t = False
#print("结束一个标签:",tag)
def handle_data( self , data):
if self .a_t is True :
print ( "得到的数据: " ,data)
p = MyHTMLParser()
p.feed( "<html> <title id='main' mouse='你好'>我是标题</title><body>我是内容</body> </html>" )
p.close()
|
运行结果如下:
1
2
3
4
|
title
属性值: ( 'id' , 'main' )
属性值: ( 'mouse' , '你好' )
得到的数据: 我是标题
|
主要的技术就是继承了HTMLParser类,然后重写了里面的一些方法,来完成自己的业务,从上面的代码里,发现如果想获取某个标签的内容,还是比较麻烦的,当然这是python里面最简单的html解析方式,还有很多其他组件,scrapy等等,里面支持Xpath路径解析,使用起来非常简洁清爽。
解析代码学会之后,我们就可以将使用urllib包,抓取到的数据交给htmlparser解析,从而提取出我们所需要的内容。
以上就是Python 网页解析HTMLParse的实例详解,如有疑问请留言或者到本站社区交流讨论,感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!
原文链接:http://qindongliang.iteye.com/blog/2142956