java中关于字符编码解码的思考

网上涉略发现，关于字符的编码：指的是由数据来指定其对应的字符，建立数据与字符的对应关系。网上看到说，java运行时使用unicode编码。

1.验证gbk,utf-8对汉字的编码。

代码如下：

package cn.itcast.test;

import org.junit.Test;

public class EncodeTest {
	@Test
	public void test1(){
		String str="中";
		byte[] bytes=str.getBytes();//获取字符对应的字节数组
		for(int i=0;i<bytes.length;i++){
			System.out.println(bytes[i]);
			System.out.println(Integer.toHexString(bytes[i]));//将字节转换为对应的十六进制数
		}

	}
}

将文件编码设为gbk时，结果是：

-42
ffffffd6
-48
ffffffd0

即d6d0H.这里可见gbk编码是采用两个字节表示一个汉字。

将文件编码设为utf-8时，结果是：

-28
ffffffe4
-72
ffffffb8
-83
ffffffad

即e4b8adH.这里可见utf-8编码是采用三个字节表示一个汉字。

2.对构造函数String(byte[] bytes,Charset charset)理解

把字节数组按照指定的编码解码为新的字符串。第一个参数，使用中常见字符串采用getbytes()方法得到对应的编码字节数组。

public void test2() throws UnsupportedEncodingException{
byte[] bytes = {(byte)0xD6, (byte)0xD0, (byte)0x31};//前两字节是”中“字对应的gbk编码下的字节。
String str = new String(bytes);//默认采用文件编码，可在myeclipse中设置
System.out.println(str);
str = new String(bytes,"iso8859-1");
System.out.println(str);
}

编码设置为gbk时候，结果为：

中1
ÖÐ1

设置为utf-8时候，结果为：

��1
ÖÐ1

秒客网

java中关于字符编码解码的思考

相关文章