使用python的lxml解析html

时间:2024-11-18 17:46:16
  • # coding=gb2312
  • from lxml import *
  • import
  • import urllib2
  • import as H
  • def getjarinfo(url):
  • c=(url)
  • f=()
  • doc = H.document_fromstring(f)
  • tables=("//table[@id='xiazai']")
  • pinpais=("//td[@id='pinpai']")
  • jixings=("//div[@id='jixing']")
  • jars = ("//table[@id='xiazai']//tr[2]/td[1]/a[1]")
  • for j in range(len(pinpais)):
  • print jars[j].get('href')
  • print pinpais[j].text_content()
  • print jixings[j].text_content()
  • e=(u"//div[text()='%s']" % u"游戏介绍")
  • describe=e[0].getnext().text_content()
  • #r = ("//table[@id='xiazai']//tr[2]/td[1]/a[1]")[0]
  • #jarurl=('href')
  • if __name__ == '__main__':
  • url='http://game./game/'
  • getjarinfo(url)