1. XML简介
XML(eXtensible Markup Language)指可扩展标记语言,被设计用来传输和存储数据,已经日趋成为当前许多新生技术的核心,在不同的领域都有着不同的应用。它是web发展到一定阶段的必然产物,既具有SGML的核心特征,又有着HTML的简单特性,还具有明确和结构良好等许多新的特性。
test.XML文件
1
2
3
4
5
6
7
8
9
10
11
12
13
|
<? xml version = "1.0" encoding = "utf-8" ?>
< catalog >
< maxid >4</ maxid >
< login username = "pytest" passwd = '123456' >
< caption >Python</ caption >
< item id = "4" >
< caption >测试</ caption >
</ item >
</ login >
< item id = "2" >
< caption >Zope</ caption >
</ item >
</ catalog >
|
XML详细介绍可以参考: http://www.w3school.com.cn/xmldom/dom_nodetype.asp
2. XML文件解析
python解析XML常见的有三种方法:一是xml.dom.*模块,它是W3C DOM API的实现,若需要处理DOM API则该模块很适合;二是xml.sax.*模块,它是SAX API的实现,这个模块牺牲了便捷性来换取速度和内存占用,SAX是一个基于事件的API,这就意味着它可以“在空中”处理庞大数量的的文档,不用完全加载进内存;三是xml.etree.ElementTree模块(简称 ET),它提供了轻量级的Python式的API,相对于DOM来说ET 快了很多,而且有很多令人愉悦的API可以使用,相对于SAX来说ET的ET.iterparse也提供了 “在空中” 的处理方式,没有必要加载整个文档到内存,ET的性能的平均值和SAX差不多,但是API的效率更高一点而且使用起来很方便。
2.1 xml.dom.*
文件对象模型(Document Object Model,简称DOM),是W3C组织推荐的处理可扩展置标语言的标准编程接口。一个 DOM 的解析器在解析一个XML文档时,一次性读取整个文档,把文档中所有元素保存在内存中的一个树结构里,之后你可以利用DOM 提供的不同的函数来读取或修改文档的内容和结构,也可以把修改过的内容写入xml文件。python中用xml.dom.minidom来解析xml文件。
a. 获得子标签
b. 区分相同标签名的标签
c. 获取标签属性值
d. 获取标签对之间的数据
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
|
#coding=utf-8
#通过minidom解析xml文件
import xml.dom.minidom as xmldom
import os
'''
XML文件读取
<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>dasdas
<caption>Python</caption>
<item id="4">
<caption>测试</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>
'''
xmlfilepath = os.path.abspath( "test.xml" )
print ( "xml文件路径:" , xmlfilepath)
# 得到文档对象
domobj = xmldom.parse(xmlfilepath)
print ( "xmldom.parse:" , type (domobj))
# 得到元素对象
elementobj = domobj.documentElement
print ( "domobj.documentElement:" , type (elementobj))
#获得子标签
subElementObj = elementobj.getElementsByTagName( "login" )
print ( "getElementsByTagName:" , type (subElementObj))
print ( len (subElementObj))
# 获得标签属性值
print (subElementObj[ 0 ].getAttribute( "username" ))
print (subElementObj[ 0 ].getAttribute( "passwd" ))
#区分相同标签名的标签
subElementObj1 = elementobj.getElementsByTagName( "caption" )
for i in range ( len (subElementObj1)):
print ( "subElementObj1[i]:" , type (subElementObj1[i]))
print (subElementObj1[i].firstChild.data) #显示标签对之间的数据
|
输出结果:
>>> D:\Pystu>python xml_instance.py
>>> xml文件路径: D:\Pystu\test.xml
>>> xmldom.parse: <class 'xml.dom.minidom.Document'>
>>> domobj.documentElement: <class 'xml.dom.minidom.Element'>
>>> getElementsByTagName: <class 'xml.dom.minicompat.NodeList'>
>>> username: pytest
>>> passwd: 123456
>>> subElementObj1[i]: <class 'xml.dom.minidom.Element'>
>>> Python
>>> subElementObj1[i]: <class 'xml.dom.minidom.Element'>
>>> 测试
>>> subElementObj1[i]: <class 'xml.dom.minidom.Element'>
>>> Zope
2.2 xml.etree.ElementTree
ElementTree生来就是为了处理XML,它在Python标准库中有两种实现:一种是纯Python实现的,如xml.etree.ElementTree,另一种是速度快一点的xml.etree.cElementTree。注意:尽量使用C语言实现的那种,因为它速度更快,而且消耗的内存更少。
a. 遍历根节点的下一层
b. 下标访问各个标签、属性、文本
c. 查找root下的指定标签
d. 遍历XML文件
e. 修改XML文件
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
|
#coding=utf-8
#通过解析xml文件
'''
try:
import xml.etree.CElementTree as ET
except:
import xml.etree.ElementTree as ET
从Python3.3开始ElementTree模块会自动寻找可用的C库来加快速度
'''
import xml.etree.ElementTree as ET
import os
import sys
'''
XML文件读取
<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>dasdas
<caption>Python</caption>
<item id="4">
<caption>测试</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>
'''
#遍历xml文件
def traverseXml(element):
#print (len(element))
if len (element)> 0 :
for child in element:
print (child.tag, "----" , child.attrib)
traverseXml(child)
#else:
#print (element.tag, "----", element.attrib)
if __name__ = = "__main__" :
xmlFilePath = os.path.abspath( "test.xml" )
print (xmlFilePath)
try :
tree = ET.parse(xmlFilePath)
print ( "tree type:" , type (tree))
# 获得根节点
root = tree.getroot()
except Exception as e: #捕获除与程序退出sys.exit()相关之外的所有异常
print ( "parse test.xml fail!" )
sys.exit()
print ( "root type:" , type (root))
print (root.tag, "----" , root.attrib)
#遍历root的下一层
for child in root:
print ( "遍历root的下一层" , child.tag, "----" , child.attrib)
#使用下标访问
print (root[ 0 ].text)
print (root[ 1 ][ 1 ][ 0 ].text)
print ( 20 * "*" )
#遍历xml文件
traverseXml(root)
print ( 20 * "*" )
#根据标签名查找root下的所有标签
captionList = root.findall( "item" ) #在当前指定目录下遍历
print ( len (captionList))
for caption in captionList:
print (caption.tag, "----" , caption.attrib, "----" , caption.text)
#修改xml文件,将passwd修改为999999
login = root.find( "login" )
passwdValue = login.get( "passwd" )
print ( "not modify passwd:" , passwdValue)
login. set ( "passwd" , "999999" ) #修改,若修改text则表示为login.text
print ( "modify passwd:" , login.get( "passwd" ))
|
输出结果:
>>> D:\Pystu\test.xml
>>> tree type: <class 'xml.etree.ElementTree.ElementTree'>
>>> root type: <class 'xml.etree.ElementTree.Element'>
>>> catalog ---- {}
>>> 遍历root的下一层 maxid ---- {}
>>> 遍历root的下一层 login ---- {'username': 'pytest', 'passwd': '123456'}
>>> 遍历root的下一层 item ---- {'id': '2'}
>>> 4
>>> 测试
>>> ********************
>>> maxid ---- {}
>>> login ---- {'username': 'pytest', 'passwd': '123456'}
>>> caption ---- {}
>>> item ---- {'id': '4'}
>>> caption ---- {}
>>> item ---- {'id': '2'}
>>> caption ---- {}
>>> ********************
>>> 1
>>> item ---- {'id': '2'} ----
>>> not modify passwd: 123456
>>> modify passwd: 999999
附:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
|
#coding=utf-8
'''
XML解析类
@功能-结点的增删改查
'''
import xml.etree.ElementTree as ET
import sys
import os.path
class XmlParse:
def __init__( self , file_path):
self .tree = None
self .root = None
self .xml_file_path = file_path
def ReadXml( self ):
try :
print ( "xmlfile:" , self .xml_file_path)
self .tree = ET.parse( self .xml_file_path)
self .root = self .tree.getroot()
except Exception as e:
print ( "parse xml faild!" )
sys.exit()
else :
print ( "parse xml success!" )
finally :
return self .tree
def CreateNode( self , tag, attrib, text):
element = ET.Element(tag, attrib)
element.text = text
print ( "tag:%s;attrib:%s;text:%s" % (tag, attrib, text))
return element
def AddNode( self , Parent, tag, attrib, text):
element = self .CreateNode(tag, attrib, text)
if Parent:
Parent.append(element)
el = self .root.find( "lizhi" )
print (el.tag, "----" , el.attrib, "----" , el.text)
else :
print ( "parent is none" )
def WriteXml( self , destfile):
dest_xml_file = os.path.abspath(destfile)
self .tree.write(dest_xml_file, encoding = "utf-8" ,xml_declaration = True )
if __name__ = = "__main__" :
xml_file = os.path.abspath( "test.xml" )
parse = XmlParse(xml_file)
tree = parse.ReadXml()
root = tree.getroot()
print (root)
parse.AddNode(root, "Python" , { "age" : "22" , "hello" : "world" }, "YES" )
parse.WriteXml( "testtest.xml" )
|
2.3 xml.sax.*
SAX是一种基于事件驱动的API,利用SAX解析XML牵涉到两个部分:解析器和事件处理器。
解析器负责读取XML文档,并向事件处理器发送事件,如元素开始跟元素结束事件
事件处理器则负责对事件作出相应,对传递的XML数据进行处理
常用场景:
(1)对大型文件进行处理
(2)只需文件的部分内容,或只需从文件中得到特定信息
(3)想建立自己的对象模型
基于事件驱动的SAX解析XML内容的知识后续补充!
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持服务器之家。
原文链接:http://www.cnblogs.com/xiaobingqianrui/p/8405813.html