Java变成遇到的简单乱码问题

时间:2022-06-25 14:38:30

1.乱码 --- 编码集
   编码集的本质是让数字与字符产生一个映射关系,不同的编码集映射实现也不同
   比如UTF-8: "中"----> -28  -72  -83 对应三个字节
       GBK:   "中"----> -42  -48      对应两个字节
2.乱码 --- 编码集(特殊情况)
   a.编码集之间支持的字符不同时,会产生乱码,比如UTF-8支持中文,使用不支持中文
     的ISO-8859-1解析,会出现乱码
   b.编码集支持的字符相同的情况时,转换字符使用的编码集是会出现乱码
3.常见的乱码场景
     a.IO流操作,进行流读取时,数据源是GBK编码集,而程序是UTF-8编码集,导致乱码
     b.IO流操作,进行流写出时,程序是UTF-8的,默认文件默认是GBK的,但是竟然没有乱码
 
   总结:字符串在不同程序之间进行传输时,有两种传输依据:
         i.以字节为依据
            A中存储字符"中"(GBK编码集 -42 -48),传输给B,直接传输字节-42 -48
         ii.以字符为依据
             A中存储字符"中"(UTF-8编码集 -28 -72 -83),传输给B(不管默认编码集),直接按照UTF-8编码集存储文字
      c.数据库操作:
           eclipse使用编码集GBK,传输中文字符"中",到MySQL,而MySQL使用编码集(UTF-8),MySQL存储未出现乱码,
           因为MySQL会先使用GBK编码集将字节转换成字符,然后再使用UTF-8转化成字节之后再用UTF-8转换成字符存储起来
4、JavaWEB 中乱码问题
   响应:
    response.setCharacterEncoding("UTF-8");//告诉Tomcat 使用 UTF-8
    response.setContentType("text/html;charset=utf-8");//告诉浏览器和 Tomcat 使用 UTF-8 编码集
   请求:
    request.setCharacterEncoding("UTF-8");//只适用于 POST
    GET 和 POST 通用
    byte[] buffer = value.getBytes("ISO-8859-1");//"中"在 UTF-8 中字节一样
        value = new String(buffer,"UTF-8");//中
   地址栏:地址栏有专属的编码方式
         java.net.URLDecoder;
         java.net.URLEncoder;
         URLEncoder.encode(s,enc)进行编码
         URLDecoder.decode(s, enc)进行解码
         链接提交到服务器用到GET方法,因此可以使用GET处理乱码的方式进行解码