Java中字符编码和字符串所占字节数

时间:2021-08-20 21:19:00

Java中字符串所占的字节数和字符编码密切相关。

Java编码实际上可以涉及这几个方面的知识:IDE的编码,操作系统默认编码,Java字符编码。

例如:我们使用eclipse编写Java程序时,可以在工程属性中设置Java程序的编码,若不设置,则程序的编码默认是操作系统的编码,这里设置的编码即为代码文件的编码;或者我们使用vim编写Java程序时,可以设置系统的环境变量LANG,例如 zh_CN.UTF-8,zh_CN.GB18030等,此时,代码文件的编码就是LANG所指定的编码。这就是IDE的编码,IDE的编码很重要,例如一个Java代码文件是UTF-8编码的,而你的IDE是GB18030编码,则显示就会出现乱码了。

Java中字符的编码是指Java中的字符串所采取的编码,例如有下面一段程序,用于计算字符串所占字节数,运行在Windows 7上:

public class Charset {

public static void main(String[] args) {
// TODO Auto-generated method stub
String msg = "中国abc";
System.out.println(msg);
int len = msg.getBytes().length;//按操作系统默认编码来编码
System.out.println(len);
try{
len = msg.getBytes("GB2312").length;//输出7
System.out.println("GB2312: "+len);
len = msg.getBytes("GBK").length;//输出7
System.out.println("GBK: "+len);
len = msg.getBytes("GB18030").length;//输出7, 2*2+3,一个汉字占2字节,一个英文字母一个字节
System.out.println("GB18030: "+len);
len = msg.getBytes("UTF-8").length;//输出9, 2*3+3=9,一个汉字占3字节,一个英文字母一个字节.
System.out.println("UTF-8: "+len);
len = msg.getBytes("UTF-16").length;//输出12
System.out.println("UTF-16: "+len);
len = msg.getBytes("UTF-32").length;//输出20
System.out.println("UTF-32: "+len);
len = msg.getBytes("Unicode").length;//输出12
System.out.println("Unicode: "+len);
} catch ( java.io.UnsupportedEncodingException e)
{
System.out.println(e.getMessage().toString());
}
}

}

程序输出是:

中国abc
7
GB2312: 7
GBK: 7
GB18030: 7
UTF-8: 9
UTF-16: 12
UTF-32: 20
Unicode: 12

分析:
len = msg.getBytes() .length 的值是7,这是因为Windows 7操作系统字符编码是GBK(GB2312或GBK或GB18030),Java在运行程序时以操作系统默认编码来编码字符,所以字符所占字节数是7。

若该段程序放在,

[zhankunlin@IctHTC javatest]$ export LANG=zh_CN.GB18030
[zhankunlin@IctHTC javatest]$ vim Charset.java (编写Java代码文件时,使用的编码是zh_CN.GB18030,即代码文件中的编码是 GB18030)
[zhankunlin@IctHTC javatest]$ javac Charset.java
[zhankunlin@IctHTC javatest]$ java Charset (LANG=zh_CN.GB18030,即系统默认编码是GB18030)
中国abc
7 (系统默认编码是GB18030,所以占7个字节)
GB2312: 7
GBK: 7
GB18030: 7
UTF-8: 9
UTF-16: 12
UTF-32: 20
Unicode: 12
[zhankunlin@IctHTC javatest]$ export LANG=zh_CN.UTF-8 (更改系统编码为 UTF-8 )
[zhankunlin@IctHTC javatest]$ java Charset
涓..abc (由于XShell终端编码没有设置成 UTF-8,所以打印出现乱码)
9 (操作系统编码是UTF-8,所以占9个字节)
GB2312: 7
GBK: 7
GB18030: 7
UTF-8: 9
UTF-16: 12
UTF-32: 20
Unicode: 12
{设置XShell终端编码为 utf-8 }
[zhankunlin@IctHTC javatest]$ java Charset中国abc  (打印正常)9GB2312: 7GBK: 7GB18030: 7UTF-8: 9UTF-16: 12UTF-32: 20Unicode: 12[zhankunlin@IctHTC javatest]$ vim Charset.java 
[zhankunlin@IctHTC javatest]$ javac Charset.java  (程序代码文件编码是 GB18030,而编译时系统编码是 UTF-8,编译器编译时若没有任何指定就会以操作系统编码的方式去读取代码文件进行编译,所以出现警告)Charset.java:6: 璀?.锛.??.UTF8 ?.??..灏..绗                String msg = "锟叫癸拷abc";                              ^Charset.java:6: 璀?.锛.??.UTF8 ?.??..灏..绗                String msg = "锟叫癸拷abc";
[zhankunlin@IctHTC javatest]$ javac -encoding gb18030 Charset.java  (使用 -encoding 选项指定程序文件的编码格式,则编译不会出问题)[zhankunlin@IctHTC javatest]$ java Charset {打印正常,因为XShell终端编码已经设置为了 utf-8 }}中国abc9GB2312: 7GBK: 7GB18030: 7UTF-8: 9UTF-16: 12UTF-32: 20Unicode: 12