xml和utf-8显示中文的故事

时间:2023-01-06 19:16:41
前两天碰到一个奇怪的问题,现在把解决过程和大家分享一下.

故事是这样发生的,公司培训部有了新的工作内容,是根据法国总部的培训部的要求,使用的一套网上培训工具,但是原来的法文需要更改为中文,就要求我们解决一下这个问题.

拿到手一看,是一个目录,里面有很多文件夹,也有一些xml文件,Word文档. 还有exe文件,执行exe后播放了Flash,里面的文字内容是法文.根据人事部介绍,里面的内容可以都改成成法文,据说法国那边是用一个软件编辑修改内容的. 又仔细仔咨询了一下,了解到由于法国使用的软件无法输入中文,因此不能照搬这个方法.

看来只能另辟蹊径了.

仔细查看目录结构,发现有一个Word文档,用法语介绍了如何通过修改xml文件来修改Flash中播放的文字内容.虽然是法文的,但是连蒙带猜,也明白了一二.文档的最后介绍该Exe是一个离线播放的版本,还可以直接通过浏览器播放swf格式的flash文件.

再打开和exe文件同名的xml文件,发现里面的内容就是播放时显示的文字.尝试修改xml文件中的内容,发现无变化.又仔细查看了目录结构,发现应该修改datas目录下的同名xml文件中的相关内容.修改后发现中文显示是乱码.

到了此处,陷入了一个僵局. 现在的问题是我可以简单地修改xml文件的内容,输入中文,但是问题是播放Flash的时候,却又不能显示中文.

静下心来又想了一会,在琢磨如何显示中文的问题,联想到以前网上的讨论贴,一个文件,不论是中文的还是英文的,理论上都是二进制的 001101001....,那么如何将这些二进制的数据显示为中文或是英文呢?这就是编码格式的问题了,我们知道英文的ASCII码只用了127位,中文是双字节的编码方式,如果用ASCII码的方式解析中文的双字节码,就会产生乱码.例如"我" 的编码是"CE D2",用ASCII就回单独解析CE和D2,而不作为一个整体解析.为了解决这个问题,产生了Unicode编码. Unicode只是一个字符集,意在创建一个统一的字符集. UTF-8就是Unicode规范下的一种编码方式,也就是将Unicode字符集中包含的某一串字符表示为一串字节的方法. 他包含了几乎所有的语言编码,理论上可以编码到6字节长(也就是可以存储6字节的字符).

再多说一句,同样内容的文件,由于编码方式的不同,其二进制的码是不一样的.比如,你可以使用16进制编辑器编辑一个"我是Apple!"的文档,它的 16进制是"CE D2 CA C7 41 70 70 6C 65",这里的中文一般是用GB2312方式编码的,也就是"我"的GB2312编码是CE D2"如果你用UTF-8编码,那就是"FF FE 11 62 2F 66 41 00 70 00 70 00 6C 00 65 00",可以看到UTF-8 用两个字节来表示ASCII,在低字节补零.这里"我" 的编码是"11 62".

上面解释了一些关于编码的问题,主要涉及到了中文的编码. 在我的问题中,我的想法是这样的: Flash在播放时是调用xml文件中的内容作为显示输出的,由于该Flash是法国总部创建的,采用了ASCII方式进行字符编码,因此对于中文的双字节数据无法解析,也就会产生乱码了. 对应的Flash文件,无论是swf格式还是exe播放格式的,都不可能找到重新区设定它的字符集.因此,我只能从xml文件入手, 改变这个文件的编码方式,迫使Flash在通过xml文件读取信息时,使用能够解析中文的编码方式来解读.

那该如何改变编码方式,改成什么编码方式呢? 看了上文,你我都清楚了,可以转换为UTF-8的编码方式. 用UltraEdit打开xml文件,用中文更改其中的显示内容,保存,然后转换为UTF-8格式.

通过这样的转换工作后,重新执行exe文件, 终于能够显示中文了.


后记
以上的分析,没有考虑操作系统的字符集支持. 不过Windows2000是支持Unicode字符集的UTF-8编码的,也就是所有的中文(其实不光是中文,还包括其它的很多字符集)都可以显示.当然了,你也可以在支持GB2312字符集的系统中正常显示中文的GB2312编码.这个在这里就不说了.

具体关于UTF-8的知识,可以参考http://www.linuxforum.net/books/UTF-8-Unicode.html ,
这个网页不是我原来看到,但是内容是一样的.