我们在开发过程中不可避免遇到字符编码问题。遇到乱码问题的时候一定要保持清晰,网上很多关于字符编码集,这里我也就不介绍各种编码,这里我介绍自己编程中遇到字符编码问题时的思路。
乱码问题 无非就是 字节 与 字符 转换时出现问题。
下面一张图显示处理数据的过程:
上面过程中 最复杂的就是 编码 与 解码 两个过程,幸运的是 现在的高级语言都已经帮我们把整个步骤做了。
而 存储 与 读取这两个步骤之中我们最常见的就是 读取 问题,因为存储非常简单,而读取就要考虑到字符编码的问题了。
我们知道在C语言中读取文件最基本的方法是read(int fd, void *buf, sizt_t qty) fd文件描述符 buf 用来存放数据的目的缓冲区 qty:要读取的字节数
我们要考虑的是把文件中的字节读取出来后如何组装这些字节,让他们显示原来的模样,用C语言处理明显很复杂,但是其他语言都是基于C语言的处理过程,我们要明白大致原理。
Java I/O最低层的 InputStream接口(面向字节),其他所有的高层I/O接口都是基于该接口的。所以我们不管是文件处理还是网络编程一般都是先获得要处理对象的InputStream实例,然后现在选择 合适的接口 对InputStream的实例进行封装。而这些接口都帮我们完成了解码过程,所以我们一般在创建这些接口实例的时候只用指定解码方案就可以了, 而且解码方案要和编码方案一致,不然就乱码了。
下面代码读取的是博客园的首页的HTML代码:
//创建一个Resource对象
UrlResource url = new UrlResource("http://www.cnblogs.com");
//获取资源的InputStream
InputStream in = url.getInputStream();
//解码方案
String charsetName = "UTF-8";
//选择合适的IO接口,因为这里我们要读取的是网页,所以选择Scanner接口比较合适
//Scanner:一个可以使用正则表达式来分析基本类型和字符串的简单文本扫描器。
Scanner scanner = new Scanner(in, charsetName);
while (scanner.hasNextLine())
System.out.println(scanner.nextLine());
里面的 URLResource 引用了Spring 里面的 类。
所以在Java IO编程的时候 我们要做的也就两个步骤 1: 选择合适的IO接口 2 选择合适的编码/解码方案