Oracle数据库中中文汉字显示乱码问题
摘 要
字符集的设置不当是影响ORACLE数据库汉字显示的关键问题。本文从实践经验出发,介绍了ORACLE关于字符集的分类、构成及设定方法,分析了ORACLE数据库汉字显示乱码的常见现象及原因,并针对各种现象及原因提出了行之有效的解决办法。
关键字: ORACLE 字符集 中文 乱码 解决 UTF-8
1 引言
ORACLE数据库作为业界领先的数据库产品,近年来在国内大中型企业中得到了广泛的应用。虽然ORACLE数据库产品本身在本地化方面已做得相当成熟,但还是有不少用户反应汉字显示乱码的问题。如对同一数据库不同的用户对同一表中的username查询却得出了不同的结果: “ORACLE??????”和“ORACLE中国有限公司”,显然结果中将中文字符显示为乱码,那么为什么呢?字符集的设置不当是影响ORACLE数据库汉字显示的关键问题。
2 关于字符集
字符集是ORACLE为适应不同语言文字显示而设定的。用于汉字显示的字符集主要有ZHS16CGB231280、ZHS16GBK、US7ASCII和UTF-8等。字符集同时存在于服务器端和客户端。服务器端字符集是在安装ORACLE时指定的,字符集登记信息存储在ORACLE数据库字典的V$NLS_PARAMETERS表中;而客户端字符集是在系统注册表(WINDOWS系统)或在用户的环境变量(UNIX系统)中设定的。
3 字符集的构成与设定
字符集的构成与设定方式分为客户端与服务器端两种:
(1)客户端字符集的构成与设定。客户端的字符集是由当前用户的环境变量NLS_LANG设定的。环境变量NLS_LANG的构成:NLS_LANG=language_territory.charset
其中:language 指定服务器消息的语言
territory 指定服务器的日期和数字格式
charset 指定字符集
三个成分可以任意组合,例如:
AMERICAN_AMERICA.US7SCII
SIMPLIFIED CHINESE_CHINA.ZHS16GBK
AMERICAN_AMERICA.ZHS16GBK
客户端字符集的设定方法针对不同操作系统设定方法稍有不同:
WINDOWS系统是在注册表项:HKEY_LOCAL_MACHINE/SOFTWARE/ORACLE/HOME0/NLS_LANG中设定;
UNIX系统是在当前用户的环境变量中设定,如在当前用户的profile文件中增加一行如下代码:
NLS_LANG=SIMPLIFIED Chinese_CHINA.ZHS16GBK;export NLS_LANG
(2)服务端字符集的构成与设定。服务端字符集的构成体现在数据字典表V$NLS_PARAMETERS的NLS_LANGUAGE、NLS_TERRITORY、NLS_CHARACTERSET三项取值上,其中NLS_CHARACTERSET的取值就是具体的数据库字符集。如利用查询语句SQL>SELECT * FROM V$NLS_PARAMETERS;可得到如下结果:
PARAMETER VALUE
NLS_LANGUAGE SIMPLIFIED CHINESE
NLS_TERRITORY CHINA
NLS_CHARACTERSET ZHS16GBK
即当前数据库使用的字符集是ZHS16GBK。
数据库服务端的字符集是在创建数据时设定的。但可通过如下方法对已设定的字符集进行修改:
方法一:重建数据库。建立数据库时将数据库的字符集设定为所需字符集。
方法二:修改SYS.PROPS$表。即用SYS用户登陆ORACLE后,利用下面语句修改相应的字符集并提交:SQL>UPDATE PROPS$ SET VALUE$=’ZHS16GBK‘WHERE NAME=’NLS_CHARACTERSET’;SQL>COMMIT;
通过此种方法来更改数据库字符集,只对更改后的数据有效,即数据库中原来的数据仍以原字符集被存储。
另外,有的还利用CREATE DATABASE CHARACTER SET ZHS16GBK命令暂时的修改字符集,当重启数据库后,数据库字符集将恢复原来的字符集。
4 常见的汉字乱码问题及解决方案
要在客户端正确显示ORACLE数据库中的汉字信息,首先必须使客户端的字符集与服务器端的字符集一致;其次是加载到ORACLE数据库的数据字符集必须与服务器字符集一致。据此,汉字显示乱码的问题大致可以分为以下几种情况:
(1)客户端字符集与服务器端字符集不同,服务器端字符集与加载数据字符集一致。这种情况是最常见的,只要把客户端的字符集设置正确即可。具体解决方案:
第一步:查询V$NLS_PARAMETERS得到服务端的字符集:SQL>SELECT * FROM V$NLS_PARAMETERS;
PARAMETER VALUE
NLS_LANGUAGE SIMPLIFIED CHINESE
NLS_TERRITORY CHINA
NLS_CHARACTERSET ZHS16GBK
第二步:根据服务端的字符集设定客户端的字符集,设定方法参见客户端的字符集的设定方式。以UNIX系统为例,可在当前用户的profile文件中增加如下两行:
NLS_LANG=SIMPLIFIED Chinese_CHINA.ZHS16GBK export NLS_LANG
(2)客户端字符集与服务器端字符集相同,服务器端字符集与加载数据字符集不一致。这种情况一般发生在ORACLE版本升级或重新安装数据库时选择了与原来数据库不同的字符集,而恢复加载的备份数据仍是按原字符集卸出的场合。另一种情况是加载从其它使用不同字符集的ORACLE数据库卸出的数据。在这两种情况中,不管客户端字符集与服务器端字符集是否一致都无法正确显示汉字。具体解决方案:
方案一:按服务端字符集的修改方法修改服务端字符集与加载数据字符集一致,然后导入数据。
方案二:利用数据格式转储,避开字符集带来的问题。即先将加载数据倒入到与其字符集一致的数据库中,然后再将数据要么按文本格式导出(数据量较小的情况下),要么通过第三方工具(如POWER BUILDER,ACCESS,FOXPRO等)倒出数据,最后将倒出的数据导入到目标数据库中。
(3)客户端字符集与服务器端字符集不同,服务端字符集与输入数据字符集不同。这种情况是在客户端字符集与服务器端字符集不一致时,从客户端输入了汉字信息。输入的这些信息即便是把客户端字符集更改正确,也无法显示汉字。解决方案:修改客户端字符集与服务端字符集一致后,重新输入数据。
5 结束语
根据ORACLE官方文档的说明,一旦数据库创建后,数据库的字符集是不能改变的。因此,提前考虑自己的数据库将选用哪一种字符集是十分重要的。数据库字符集选择的一般规则是将数据库字符集设定为操作系统本地字符集的一个超集,同时数据库字符集也应该是所有客户字符集的超集。如同样是中文环境,在选择ZHS16CGB231280还是ZHS16GBK时,我们更多的情况是选择ZHS16GBK,因为它包含了ZHS16CGB231280字符集。
参考文献
1.(美)JONATHAN GENNICK CAROL MCCULLOUGH-DIETER GERRIT-JAN LINKER ,译者:赵艳勤, 刘冠英, 秦玉杰 等.《ORACLE8I DBA宝典》.电子工业出版社
2.JASON COUCHMAN,SUDHEER MARISETTI.《OCP ORACLE9I DATABASE:FUNDAMENTALS I EXAM GUIDE》.出版社: MCGRAW-HILL
3.ORACLE Corporation.ORACLE 9i Database Administration Fundamentas I Student Guide》