【Python实例一】使用minidom读取xml文件

前言：
最近刚在廖雪峰老师的网站里学习了Python的基础内容，想着循序渐进地找点实例练练手，网上看到有很多相关资料，决定针对感兴趣的内容实际编码实践一下，昨天刚好看到有关使用Python来读取XML文件的资料，看起来还算简单，所以打算就从这里开始着手我的Python实践~

由于我只知道html这之类的标记语言，虽然也有看到过XML的文件，但是还没有了解过XML，所以就先去看了看有关XML的基本介绍，去W3C网站上实验了几个例子，大概知道了这是一个什么东西，下面有一些XML的基本概念，具体的可以去这里看看 -->http://www.w3school.com.cn/xml/

目录：
下面的内容结构如下：

一、什么是XML

二、XML（可扩展标记语言）与HTML（超文本标记语言）的关系

三、关于Python Minidom 四、开始用pyhton读取xml文件
--------------------------------------------------------------------------------------------------------------------------

正文：

一、什么是XML

XML指可扩展标记语言；
它的设计宗旨是传输数据，而不是显示数据；（ps：不要指望 XML 文件会直接显示为 HTML 页面，XML 文档不会携带有关如何显示数据的信息）
标签没有被预定义，需要自行定义标签
对它最好的描述是：独立于软件和硬件的信息传输工具

二、XML（可扩展标记语言）与HTML（超文本标记语言）的关系

可扩展标记语言是一种很像超文本标记语言的标记语言；（但不是超文本标记语言的替代，而是补充）
它被用来传输和存储数据，其焦点是数据的内容；而超文本标记语言是用来显示数据的，其焦点是数据的外观。

三、关于Python Minidom

（ps：网上找到有关Minidom的详解比较少，大多都是实例。但这里贴个Python官方的介绍地址-->https://wiki.python.org/moin/MiniDom ）

用Minidom在XML文件中读取到的信息，可以看做是一个主结构，根据XML文件标签的结构层次，构成了树的结构。

树中每一个节点有三种基本属性：

根名.nodeName为节点标签的名字。比如<aa>标签的nodeName为aa

根名.nodeValue是节点的值，只对文本结点有效。

根名.nodeType是节点的类型（W3C有关XML的介绍中有节点类型的具体阐述--> http://www.w3school.com.cn/xmldom/dom_nodetype.asp）

四、开始使用Python读取XML文件

1. 首先，建立一个测试用的XML文件,名为“123.xml”，比较简单，代码如下：

  <?xml version="1.0" encoding="UTF-8" ?>

  <catalog>

     <aa value="first">this is the 1st.</aa>

     <aa value="second">this is the 2nd.</aa>

  </catalog>

2. 在同一个目录下，建立一个名为“xml_read.py”的文件
首先要导入minidom类库，导入方式有两种，对应的打开XML文件的语句也稍有不同。
第一种：

 #导入类库

 import xml.dom.minidom

 #使用minidom里的parse()函数打开xml文档

 dom = xml.dom.minidom.parse('123.xml')

第二种：

 #导入类库

 from xml.dom import minidom

 #使用minidom里的parse()函数打开文件

 doc = minidom.parse('123.xml')

导入类库并成功打开XML文件后，要获取根节点，这里的“documentElement”有点像HTML语言里的使用：

 root = dom.documentElement

先试试将根节点相关的三种基本属性显示出来，代码如下：

 print root.nodeName

 print root.nodeValue

 print root.nodeType

“xml_read.py”的完整代码以及实验效果如下：

  #coding=utf-8

  #导入类库

  import xml.dom.minidom

  #使用minidom里的parse()函数打开xml文档

  dom = xml.dom.minidom.parse('123.xml')  

  root = dom.documentElement

 #每一个节点都有它的 nodeName、nodeValue、nodeType属性

 print root.nodeName

 print root.nodeValue

 print root.nodeType

效果如下：
【Python实例一】使用minidom读取xml文件

---------------------------------------------------------------------------------------------------------------------

刚刚演示的是对根节点的基本属性显示，下面演示怎么获取子元素的相关信息。

对于知道元素名字的子元素，可以使用getElementsByTagName方法获取，由该方法返回的是一个list，因此需要用循环来读出“123.xml”子标签的内容：

修改后的“xml_read.py”的完整代码如下：

  #coding=utf-8

  #导入类库

  import xml.dom.minidom

  #使用minidom里的parse()函数打开xml文档

  dom = xml.dom.minidom.parse('123.xml')  

  root = dom.documentElement

  nodes= root.getElementsByTagName("aa")

  for n in nodes:

      print n.getAttribute("value") #获取属性值

      print n.childNodes[0].data  #获取文本值

结果显示如下：
【Python实例一】使用minidom读取xml文件

这只是我的第一个实例尝试，也希望自己之后能够坚持练习，多去发现问题解决问题，逐步提高自己~

秒客网

【Python实例一】使用minidom读取xml文件

相关文章