java读写中文文件

时间:2023-01-11 15:49:24

在用Java程序进行读写含中文的txt文件时,经常会出现读出或写入的内容会出现乱码。原因其实很简单,就是系统的编码和程序的编码采用了不同的编码格式。通常,假如自己不修改的话,windows自身采用的编码格式是gbk(而gbk和gb2312基本上是一样的编码方式),而IDE中Encode不修改的话,默认是utf-8的编码,这就是为什么会出现乱码的原因。当在OS下手工创建并写入的txt文件(gbk),用程序直接去读(utf-8),就会乱码。为了避免可能的中文乱码问题,最好在文件写入和读出的时候显式指定编码格式。

可以观察其实windows下的记事本的默认的格式是ANSI,查看方式就是创建一个新的文本文件然后点击另存为

java读写中文文件

在简体中文Windows操作系统中,ANSI 编码代表 GBK 编码,所以win系统的编码方式是gbk,不可以用utf-8去读,

在Java中,如果我们用java.io.FileReader或者java.io.FileWriter来读写文件的话,固然我们可以通过 java.io.BufferedReader和java.io.BufferedWriter来提高效率,但是我们会发现在FileReader和 FileWriter中我们只能获取编码方式,而不能设置。这样,在FileReader和FileWriter中的编码设置只能服从于一些更为底层的设置,那么在读写多种语言编码的文件时就很容易出现乱码。

另外一种方法就是采用java.io.FileInputStream/java.io.InputStreamReader和 java.io.FileOutputStream/java.io.OutputStreamWriter来解决这个问题。在 InputStreamReader和OutputStreamWriter中,可以通过指定编码方式来完成gbk文件的读写。

//默认情况下,win系统编码是gbk/gbk2312,读取和写入时加入编码字符集可以解决乱码
public class ReadAndWrite {
	private static void test(){
		File firstFile = new File("D://fileone.txt");
		File secondFile=new File("D://filesecond.txt");
		BufferedReader in = null;
		BufferedWriter out = null;		
		try {		 
			in = new BufferedReader(new InputStreamReader(new FileInputStream(firstFile), "gbk"));
			out = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(secondFile), "gbk"));
			String line = "";
			while((line = in.readLine())!=null){
				System.out.println(line);
				out.write(line+"\r\n");
			}
		} catch (FileNotFoundException e) {
			System.out.println("file is not fond");
		} catch (IOException e) {
			System.out.println("Read or write Exceptioned");
		}finally{			
			if(null!=in){ 
				try {
					in.close();
				} catch (IOException e) {
					e.printStackTrace();
				}}
			if(null!=out){
				try {
					out.close();
				} catch (IOException e) {
					e.printStackTrace();
				}}}}
}

还有一定要写BufferedWriter out的close不然什么都不会被写入文件的,这点至关重要!!!注意要写入换行时,一定要\r\n,否则无效