踩过的坑1:怎么把存储UTF-8编码的字符串转换成实际字符
首先说明下问题。之前用爬虫从网上down数据的时候因为没有思考到位,结果出现了一个很奇葩的问题。一般来说中文采用UTF8编码后写成byte[]的格式然后存储在计算机中什么问题都没有,但是在写代码的时候我居然把byte[]又转换成了UTF8格式然后在存储。比如说“阜”会以\u961c这样的byte[]格式存储。但是我却存储了”\u961c”这样的字符串所对应的byte[]格式。
下面开始介绍下解决问题的思路了:
首先,找了下java里面似乎是没有类似的方法的。所以需要自己来了。
根据UTF8编码的方式。所有的常用中文都是用3个字节来编码的。
所以简单的思路就是将string里的16进制的不同的byte位拆分后对应转换成UTF8编码就行了。这里简单贴一下代码。只能演示用实际使用需要封装。而且仅针对中文。
其实这里还有一些其他问题。java中间>>>应该是右移补0的但是不知道为什么实际情况并不是这样。不知道哪里出了问题这里先标记下。
public class Utf8stringdecode {
public static void main(String[] args) throws UnsupportedEncodingException {
// TODO Auto-generated method stub
String Utf8Str = new String("5357");
int Utf8Int = Integer.parseInt(Utf8Str,16);
System.out.println(Integer.toBinaryString(Utf8Int));
byte[] bytes = ByteBuffer.allocate(4).putInt(Utf8Int).array();//why it only work when allocate(4) or more?
byte[] Utf8Code = new byte[3];
Utf8Code[0] = (byte) ((bytes[2]>>>4 | (byte) 224 )& (byte) 239);//why this should add (byte) before bytes[2]>>>4 and >>> will add 1 at left position;
System.out.println("Utf8Code[0]:"+Utf8Code[0]);
Utf8Code[1] = (byte) ((((bytes[2] & (byte) 15)<<2)|(byte) 128 )|((byte)bytes[3]>>>6)&(byte)3);
System.out.println(Utf8Code[1]);
Utf8Code[2] = (byte) ((bytes[3]& (byte) 63)|(byte) 128);
System.out.println(Utf8Code[2]);
String StaName = new String(Utf8Code,"UTF-8");
System.out.println(StaName);
}
}