解决xml解析中报文格式和encoding不一致的解析错误

时间:2021-07-18 13:56:39

1.错误现象

我遇到过这样的xml文件,用c++解析的时候,报如下的错误:

Fatal Error at file "d:/test2.xml", line 1, column 40
   Message: An exception occurred! Type:UTFDataFormatException, Message:invalid byte 2 (? of a 2-byte sequence.

用java解析这个文件的时候,报如下错误

Invalid byte 1 of 1-byte UTF-8 sequence.
java.io.UTFDataFormatException: Invalid byte 1 of 1-byte UTF-8 sequence.
 at org.apache.xerces.impl.io.UTF8Reader.invalidByte(Unknown Source)
 at org.apache.xerces.impl.io.UTF8Reader.read(Unknown Source)
 at org.apache.xerces.impl.XMLEntityScanner.load(Unknown Source)
 at org.apache.xerces.impl.XMLEntityScanner.skipChar(Unknown Source)
 at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl$FragmentContentDispatcher.dispatch(Unknown Source)
 at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl.scanDocument(Unknown Source)
 at org.apache.xerces.parsers.XML11Configuration.parse(Unknown Source)
 at org.apache.xerces.parsers.XML11Configuration.parse(Unknown Source)
 at org.apache.xerces.parsers.XMLParser.parse(Unknown Source)
 at org.apache.xerces.parsers.DOMParser.parse(Unknown Source)
 at org.apache.xerces.jaxp.DocumentBuilderImpl.parse(Unknown Source)
 at javax.xml.parsers.DocumentBuilder.parse(Unknown Source)

 

2.程序内容

java程序内容如下:

c++程序用到了xerces-c,代码段如下:

 

3.原因分析

文件test2.xml内容如下:

我把这个文件放在本地,用ie打开该文件,解析有问题,不能正常显示。

修改encoding="gbk",然后说用ie打开,就没有问题了。

再次运行java程序和c++程序,正常运行,没有报告错。

说明文件格式有问题,最简单的解决办法就是修改文件的encoding段。

但是有些时候这样做起来可操作性能不强。

我遇到的问题是,别人发给我一个错误的文件,我打电话给对方,告诉他,文件格式有问题,对方不承认,还说别的厂商为什么没有找他,“晕”,死活不修改,而且程序一直会自动运行,手工去修改显然不显示,用脚本修改文件的额内容也不好。

 

放心,程序是“万能”的,平时遇到的所谓bug,看似不可能的问题,认真分析之后,都能通过程序来解决问题。

 

4.分析、解决问题

既然xml文件的内容没有被编码为encoding指定的内容,我们可以把文件的内容读出来,然后在进行编码,将编码后的内容进行解析,问题就解决了。

再不修改文件内容的情况下,修改java程序,内容如下:

运行正确,成功打印出根节点名字。

程序先将文件的内容读出,然后转换成utf-8的编码,组装成一个字符流进行解析。

 

c++程序也是一样,先读出文件内容,然后用icu转换成utf-8编码,组装成内容结构进行解析。

c++程序段内容如下:

上面用到了一些icu的函数,没有用过icu的兄弟,可以查看一下这方面的资料。