java中关于字符编码解码的思考

时间:2021-04-19 15:45:20

网上涉略发现,关于字符的编码:指的是由数据来指定其对应的字符,建立数据与字符的对应关系。网上看到说,java运行时使用unicode编码。


1.验证gbk,utf-8对汉字的编码。

代码如下:

package cn.itcast.test;

import org.junit.Test;

public class EncodeTest {
@Test
public void test1(){
String str="中";
byte[] bytes=str.getBytes();//获取字符对应的字节数组
for(int i=0;i<bytes.length;i++){
System.out.println(bytes[i]);
System.out.println(Integer.toHexString(bytes[i]));//将字节转换为对应的十六进制数
}

}
}
将文件编码设为gbk时,结果是:

-42
ffffffd6
-48
ffffffd0

即d6d0H.这里可见gbk编码是采用两个字节表示一个汉字。

将文件编码设为utf-8时,结果是:

-28
ffffffe4
-72
ffffffb8
-83
ffffffad

即e4b8adH.这里可见utf-8编码是采用三个字节表示一个汉字。

2.对构造函数String(byte[] bytes,Charset charset)理解

把字节数组按照指定的编码解码为新的字符串。第一个参数,使用中常见字符串采用getbytes()方法得到对应的编码字节数组。

public void test2() throws UnsupportedEncodingException{
byte[] bytes = {(byte)0xD6, (byte)0xD0, (byte)0x31};//前两字节是”中“字对应的gbk编码下的字节。
String str = new String(bytes);//默认采用文件编码,可在myeclipse中设置
System.out.println(str);
str = new String(bytes,"iso8859-1");
System.out.println(str);
}

编码设置为gbk时候,结果为:

中1
ÖÐ1

设置为utf-8时候,结果为:

��1
ÖÐ1