Python 对XML文件解析的方式有三种:SAX、DOM、ElementTree;
Pyhton 标准库包含SAX解析器,SAX是一种典型的极为快速的工具,在解析XML时,不会占用大量内存。
但是这是基于回调机制的,因此在某些数据中,它会调用某些方法进行传递。这意味着必须为数据指定句柄,
以维持自己的状态,这是非常困难的。
那么SAX对XML文件解析的顺序是?查阅了那么多资料,发现都是按照
startDocument -< startElement -< characters -< endElement -< endDocument
这样的顺序来进行的,确实,像这样写个Demo确实没有发现有什么不对,但是当我们的xml文件非常大的时候,
我遇到问题的时候xml文件达到50K, 贴一个例子:
<EXECUTE_ORDERS> <ORDER_INFO execute_id="58" order_id="16" show_sequence="default" show_type="CPM" max_times="670000" per_push_times="1000" push_interval="24" priority ="10" > <DATE_TIME> <DAY id='MON'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY> <DAY id='TUE'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY> <DAY id='WEN'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY> <DAY id='THU'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY> <DAY id='FRI'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY> <DAY id='SAT'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY> <DAY id='SUN'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY> </DATE_TIME> <AUDIENCE> <AREA>0010</AREA> <KEYWORD_FILES>Keywords_file/58/default.txt</KEYWORD_FILES> <KEYSITE_FILES>Keyurl_file/58/default.txt</KEYSITE_FILES> </AUDIENCE>这是我们项目中用到的xml文件,只是一小部分,读取标签中间内容的时候就经常出现莫名奇妙的错误,有些内容 只读取了一部分,没有读取完整;
比如读<DAY>标签中间的内容:
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14读到此处就停止了,并没有全部读出来;
于是我找到了python对sax模块的时候说明:
按照我的理解,该模块对于标签内容的解析,也就是character 方法的调用可能是多次的,使用的是类似java 接口的方式(不知道是不是这样,有经验的朋友可以指点下),xml文件的解析方式一直就这样?
这样就很容易理解了,难怪会莫名其妙的丢数据,那么现在我们可以重新对SAX的解析顺序做一下调整:
startDocument -< startElement -< characters -< characters -<........-<endElement -< endDocument
在characters中只读取内容,并把内容临时拼接并保存起来 ,在endElement中对内容进行操作;
具体的代码有空再发一下;
这里有一个链接也提到了这个问题:http://blog.csdn.net/feng88724/article/details/7013675