Python SAX模块对大xml文件解析的错误认识

时间:2022-11-29 22:39:16

        Python 对XML文件解析的方式有三种:SAX、DOM、ElementTree;

     Pyhton 标准库包含SAX解析器,SAX是一种典型的极为快速的工具,在解析XML时,不会占用大量内存。
但是这是基于回调机制的,因此在某些数据中,它会调用某些方法进行传递。这意味着必须为数据指定句柄,
以维持自己的状态,这是非常困难的。

那么SAX对XML文件解析的顺序是?查阅了那么多资料,发现都是按照

startDocument  -<   startElement  -< characters -< endElement -< endDocument 

这样的顺序来进行的,确实,像这样写个Demo确实没有发现有什么不对,但是当我们的xml文件非常大的时候,

我遇到问题的时候xml文件达到50K, 贴一个例子:

<EXECUTE_ORDERS>
<ORDER_INFO execute_id="58"  order_id="16"  show_sequence="default"  show_type="CPM"  max_times="670000"  per_push_times="1000"  push_interval="24"  priority
="10" >
<DATE_TIME>
<DAY id='MON'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY>
<DAY id='TUE'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY>
<DAY id='WEN'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY>
<DAY id='THU'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY>
<DAY id='FRI'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY>
<DAY id='SAT'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY>
<DAY id='SUN'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY>
</DATE_TIME>
<AUDIENCE>
<AREA>0010</AREA>
<KEYWORD_FILES>Keywords_file/58/default.txt</KEYWORD_FILES>
<KEYSITE_FILES>Keyurl_file/58/default.txt</KEYSITE_FILES>
</AUDIENCE>

这是我们项目中用到的xml文件,只是一小部分,读取标签中间内容的时候就经常出现莫名奇妙的错误,有些内容 只读取了一部分,没有读取完整;

比如读<DAY>标签中间的内容:

0,1,2,3,4,5,6,7,8,9,10,11,12,13,14读到此处就停止了,并没有全部读出来;

于是我找到了python对sax模块的时候说明:

Python SAX模块对大xml文件解析的错误认识


 

按照我的理解,该模块对于标签内容的解析,也就是character 方法的调用可能是多次的,使用的是类似java 接口的方式(不知道是不是这样,有经验的朋友可以指点下),xml文件的解析方式一直就这样? 

这样就很容易理解了,难怪会莫名其妙的丢数据,那么现在我们可以重新对SAX的解析顺序做一下调整:

startDocument  -<   startElement  -< characters -< characters -<........-<endElement -< endDocument

在characters中只读取内容,并把内容临时拼接并保存起来 ,在endElement中对内容进行操作;

具体的代码有空再发一下;

这里有一个链接也提到了这个问题:http://blog.csdn.net/feng88724/article/details/7013675