XML文件编码问题

时间:2021-09-28 01:52:58

这两天的过程中的一个项目,以解决编码格式ANSI的xml当文件。我遇到了一些问题。下面的例子现在将总结分析过程。

通过win7记事本或notepad++创建一个xml文件test_source:

<?

xml version="1.0" encoding="utf-16"?>
<note>
<name>coffeecat</name>
<chn>"測试"</chn>
</note>

能够看到在xml文件的第一行。声明编码格式为utf-16。也就是unicode,使用IE浏览器打开test_source失败。

通过Ultra Edit将上述已创建的xml另存为test_ue,在保存时,显式的设置编码为utf-16。通过浏览器却能直接打开,这是为什么?

在网上查阅了一些资料,问题可能出在xml文件头中声明的字符编码与实际保存文件的编码格式不符。

验证:

使用Ultra Edit将test_source和test_ue打开,并切换为十六进制编辑模式:

test_source:

XML文件编码问题

test_ue:

XML文件编码问题

当中前两位标示出了文件实际存储格式的不同,以3C 3F开头的文件为ANSI格式存储的文件,而以FF FE开头的文件是Unicode little endian格式存储的。

结论:

要成功使用IE浏览器打开xml文件,一定要确保xml文件的格式声明与实际存储格式一致,建议在编辑xml文件时,尽量使用Ultra Edit等专业的工具进行。假设不能确定文件期望的保存格式,能够将xml中的格式声明部分(encoding="utf-16")删掉。这样xml文件也能够在IE浏览器中打开。(能够临时解决这个问题。但不建议,可能引起的问题未知)

额外的:

在工作中,碰到了须要解析一份ANSI编码格式的xml文件,如上述的test_source.xml。当中包括了中文字符。为了不影响解析的功能,无法通过Ultra Edit将其编码格式改动为Unicode。可是项目须要这份xml文件能够随时通过IE浏览器查看。该怎么办呢?

问题还是出在xml文件的格式声明上,既然实际文件为ANSI,与声明中的encoding="utf-16“不符,那么应该将声明的编码格式改为与ANSI一致的就可以。既然要与包括中文的ANSI编码格式相符,自然想到了汉子编码字符集GB2312,将encoding="utf-16“改动为encoding="gb2312“,就可以使用IE浏览器打开xml文件了。

或者使用除了包括中文字符还包括繁体、日、韩文字字符的更全面的字符集GBK。

參考资料:

http://tjmljw.iteye.com/blog/1500370

http://ljhzzyx.blog.163.com/blog/static/3838031220129701845443/

http://blog.csdn.net/chaijunkun/article/details/4654397

XML文件编码问题的更多相关文章

  1. web&period;xml文件--编码注意事项

    写在前面: 最近发布项目的时候,要修改web.xml文件的内容,然后我在本机的web.xml文件中是有注释的,但是到了服务器上面,就说编码不同.我也没有怎么注意.就继续启动服务器,但是访问网站,一直报 ...

  2. PHP操作XML文件学习笔记

    原文:PHP操作XML文件学习笔记 XML文件属于标签语言,可以通过自定义标签存储数据,其主要作用也是作为存储数据. 对于XML的操作包括遍历,生成,修改,删除等其他类似的操作.PHP对于XML的操作 ...

  3. SAXParser解析xml文件

    对于xml的解析,这里学习并演示使用SAXParser进行解析的样例. 使用此种方法无法解析"gb2312"编码的xml文件,因此,此处xml文件编码设置为"UTF-8& ...

  4. Android -- 创建XML文件对象及其序列化, pull解析XML文件

    1. 创建XML文件对象及其序列化 示例代码:(模拟以xml格式备份短信到SD卡) SmsInfo.java, bean对象 /** * 短信的业务bean * @author Administrat ...

  5. 上传XML文件字符编码问题

    1.上传的XML文件的空格的字符编码和倒入到数据库的空格的字符编码不是一种编码格式,导致导入到数据库的数据和XML文件的数据不一致的情况,进而使展示到界面上的数据在进行搜索时不能搜索出来.解决办法: ...

  6. Python解析xml文件遇到的编码解析的问题

    使用python对xml文件进行解析的时候,假设xml文件的头文件是utf-8格式的编码,那么解析是ok的,但假设是其它格式将会出现例如以下异常: xml.parsers.expat.ExpatErr ...

  7. pugixml读取unicode编码的xml文件的做法

    作者:朱金灿 来源:http://blog.csdn.net/clever101 实际上在多字节编码的情况下,即以记事本打开显示的ANSI编码的,如下图: pugixml是可以直接读取中文字符的,示例 ...

  8. 使用Dom4j生成xml文件(utf-8编码)

    xml文件内容: <?xml version="1.0" encoding="UTF-8"?> <result> <code&gt ...

  9. 用DOM和DOM4J写xml文件时,怎样设置xml文档的编码

    //在将xml文档传输出去时,利用Transformer中的setOutputProperty方法 TransformerFactory trans = TransformerFactory.newI ...

随机推荐

  1. Oracle中没有 if exists&lpar;&period;&period;&period;&rpar;

    对于Oracle中没有 if exists(...) 的语法,目前有许多种解决方法,这里先分析常用的三种,推荐使用最后一种 第一种是最常用的,判断count(*)的值是否为零,如下declare  v ...

  2. &lbrack;Golang&rsqb;使用自建代理访问指定网站

    由于爬虫过于频繁访问某一个网站而被禁ip,只因为贪恋一时爽快而忘记了使用代理,这大概是大多数爬虫初学者遇到的问题吧.但是有一些网站不只是爬虫需要访问,人也是需要访问的.这时候就需要使用代理服务器来访问 ...

  3. C&num;中获得汉字的首拼音&lpar;简化版&rpar;

    利用汉字在计算机里面的编码来得到汉字的首拼音: static public string GetChineseSpell(string strText) { int len = strText.Len ...

  4. tasklet和workqueue的选择

    linux内核设计与实现page127中有个比較,内容比較多.概括一下就是1. tasklet不能休眠, 2. 不须要休眠tasklet效率更高 3.有休眠仅仅能workqueue (1)假设不须要休 ...

  5. VSTO 学习笔记(十一)开发Excel 2010 64位自定义公式

    原文:VSTO 学习笔记(十一)开发Excel 2010 64位自定义公式 Excel包含很多公式,如数学.日期.文本.逻辑等公式,非常方便,可以灵活快捷的对数据进行处理,达到我们想要的效果.Exce ...

  6. 打包静默安装参数&lpar;nsis&comma;msi&comma;InstallShield&comma;InnoSetup&rpar;

    原文:打包静默安装参数(nsis,msi,InstallShield,InnoSetup)[转] 有时我们在安装程序的时候,希望是静默安装的,不显示下一步下一步,这编访问来教大家如何来操作,现在常用的 ...

  7. Octave Tutorial(《Machine Learning》)之第一课《数据表示和存储》

    Octave Tutorial 第一课 Computation&Operation 数据表示和存储 1.简单的四则运算,布尔运算,赋值运算(a && b,a || b,xor( ...

  8. TFboy养成记 tf&period;cast&comma;tf&period;argmax,tf&period;reduce&lowbar;sum

    referrence: 莫烦视频 先介绍几个函数 1.tf.cast() 英文解释: 也就是说cast的直译,类似于映射,映射到一个你制定的类型. 2.tf.argmax 原型: 含义:返回最大值所在 ...

  9. Windows CE Notification API的使用方法

    1 引言      以Windows CE 为操作系统的掌上电脑(如PocketPC或HPC),除具备PC的功能外,还具备很强的自身控制能力.Windows CE API超越微软其他操作系统的 API ...

  10. 最短路径——SPFA算法

    一.前提引入 我们学过了Bellman-Ford算法,现在又要提出这个SPFA算法,为什么呢? 考虑一个随机图(点和边随机生成),除了已确定最短路的顶点与尚未确定最短路的顶点之间的边,其它的边所做的都 ...