poi生成excel文件中文乱码问题

时间:2021-07-20 09:22:22
      利用POI生成excel文件,在本机Windows测试成功,发布到linux服务器上,生成的文件中文有部分是乱码。项目的编码是utf-8,数据库里的编码是gbk,一般Windows中文系统的编码是gb2312,linux系统是utf-8,用到linux服务器查到的编码是en_US.utf-8。

      经查看,出现乱码的字符是直接在程序中写的字符串字面量(就是"..."里面写中文)。可以断定,原因是自己的java程序在不同的操作系统下处理字符串字面量,使用系统默认编码不同造成的。这些字面量使用 new String("...".getBytes(), "utf-8")这样来重新构造,在linux系统下生成的excel文件就不是乱码了。

      这样处理这些字面量后,发现有一个字符串仍是乱码,查看后面的代码,发现此字符串进行了多次 "+" 操作。如下, zoneName 和 corpName 是客户端界面传过来的字符串:
String reportTypeDay = "日统计报表";
String titleStr = zoneName + corpName;
...
titleStr += reportTypeDay;
字符串 titleStr 不需要进行转码,不会出现乱码。
String reportTypeDayLeft = new String("日统计报表(".getBytes(), fileEncoding);
...
String rightBracket = ")";
...
String sheetName = corpName + reportTypeDayLeft + tableDate + rightBracket;
corpName 和 tableDate是客户端界面传过来的字符串,此处reportTypeDayLeft如果不手动转码,在生成的excel文件中就会成为乱码,具体原因尚不清楚。

      接下来,有个问题就是,这样固定编码生成文件,在Windows下就会有乱码了。因此,需要根据程序运行时系统的编码来生成文件,获得系统编码的方法如下:
public static String getSystemFileCharset(){
    Properties pro = System.getProperties();
    return pro.getProperty("file.encoding");
 }


      POI在2.5版本的时候,有cell的setEncoding的方法,但处理的不好,有时候转换不成功。在POI3.2版本之后,就取消了这样的方法,POI的开发者不想管这麻烦事了,让你们这些用我POI的人自己处理字符去吧。在非POI相关的java程序中,可以在生成文件的时候,通过OutputStream构造指定字符集的OutputStreamWriter再去写文件,这样就不用自己去转换每个字符串的编码(常用的FileWriter是根据系统编码生成文件)。POI中是使用HSSFWorkbook的write方法生成文件,未找到指定字符集生成文件的方法,实现这样的功能可能要自己扩展。