可以理解SGML 为XML的前身,在80年代流行
如果要用sgmllib解析html,则要继承sgmllib.SGMLParser类,此类里的函数都是空的,用户需要重载它。这个类提供的功能是在特定情况下调用相应的函数。
比如当发现<html>标签时,如果并没有定义 start_html(self,attr)函数,则会调用unknown_starttag函数,具体怎么处理则根据用户。
sgml的标签是可以自定义的,比如自己定义了一个start_lala函数,则就会处理<lala>标签。
#coding=GBK
import sgmllib,sys,os,string
html = """<lala><head><title>Advice</title></head><body>
<p>The <a href="http://ietf.org" mce_href="http://ietf.org">IETF admonishes:
<i>Be strict in what you <b>send</b>.</i></a></p>
<form>
<input type=submit name='我'> 我 <input type=text name=start size=4></form>
</body></lala>
"""
tagstack = []
class ShowStructure(sgmllib.SGMLParser):
# def handle_starttag(self, tag, method,attrs): tagstack.append(tag)
# def handle_endtag(self, tag): tagstack.pop()
def handle_data(self, data):
if data.strip():
for tag in tagstack: sys.stdout.write('/'+tag)
sys.stdout.write(' >> %s/n' % data[:40].strip())
def unknown_starttag(self,tag,attrs):
print 'start tag:<'+tag+'>'
def unknown_endtag(self,tag):
print 'end tag:</'+tag+'>'
def start_lala(self,attr):
print 'lala tag found'
ShowStructure().feed(html)
如果定义了start_tag,没有定义handle_starttag 则执行start_tag
如果定义了start_tag,也定义了handle_starttag 则执行handle_starttag,start_tag不执行
如果只定义了handle_starttag,没有定义start_tag,则handle_starttag也不执行
结论:handle_starttag,和start_tag都是处理你指定的特殊tag的