POI解析excel2007和生成excel2007

时间:2021-08-12 17:00:12

最近几天在整理客户的数据,数据量比较大,有几十万条,用到了excel。用户提供的数据有很多重复的,这个我们要挑拣出来,我用代码写挑拣重复的数据,原来用jxl解析excel,发现excel不支持office2007,并且excel2003最大的行数只能是65535,这样就不能运行一次代码解决问题了。查了下资料,apache的POI可以解析office2007。下面两个简单例子望能提供给网友参考。

1.读取excel2007

//office2007工作区
XSSFWorkbook wb = new XSSFWorkbook(new FileInputStream("D:/temp/test_poi.xlsx"));
//获得该工作区的第一个sheet
XSSFSheet sheet = wb.getSheetAt(0);
//总共有多少行,从0开始
int totalRows = sheet.getLastRowNum();
for (int i = 0; i <= totalRows; i++) {
//取得该行
XSSFRow row = sheet.getRow(i);
//注释的代码,是为了防止excel文件有空行
// if(row == null){
// continue;
// }
System.out.println(row.getCell(1).toString());
}

//将被表示成1.3922433397E10的手机号转化为13922433397,不一定是最好的转换方法

  DecimalFormat df = new DecimalFormat("#");
System.out.println("type=="+df.format(cell.getNumericCellValue()));

2.生成excel2007

//输出流
OutputStream os = new FileOutputStream("D:/temp/create.xlsx");
//工作区
XSSFWorkbook wb = new XSSFWorkbook();
//创建第一个sheet
XSSFSheet sheet= wb.createSheet("test");
//生成第一行
XSSFRow row = sheet.createRow(0);
//给这一行的第一列赋值
row.createCell(0).setCellValue("column1");
//给这一行的第一列赋值
row.createCell(1).setCellValue("column2");
//写文件
wb.write(os);
//关闭输出流
os.close();

使用POI3.5时,为能兼容Excel2007而发生的异常

刚开始使用new HSSFWorkbook(new FileInputStream(excelFile))来读取Workbook,对Excel2003以前(包括2003)的版本没有问题,但读取Excel2007时发生如下异常:
org.apache.poi.poifs.filesystem.OfficeXmlFileException: The supplied data appears to be in the Office 2007+ XML. You are calling the part of POI that deals with OLE2 Office Documents. You need to call a different part of POI to process this data (eg XSSF instead of HSSF)

        该错误意思是说,文件中的数据是用Office2007+XML保存的,而现在却调用OLE2 Office文档处理,应该使用POI不同的部分来处理这些数据,比如使用XSSF来代替HSSF。

        于是按提示使用XSSF代替HSSF,用new XSSFWorkbook(excelFile)来读取Workbook,对Excel2007没有问题了,可是在读取Excel2003以前(包括2003)的版本时却发生了如下新异常(真是太悲剧了):
org.apache.poi.openxml4j.exceptions.InvalidOperationException: Can't open the specified file: '*.xls'
        该错误是说,操作无效,不能打开指定的xls文件。

        下载POI的源码后进行单步调试,发现刚开始的时候还是对的,但到ZipFile类后就找不到文件了,到网上查了下,原来是XSSF不能读取Excel2003以前(包括2003)的版本,这样的话,就需要在读取前判断文件是2003前的版本还是2007的版本,然后对应调用HSSF或XSSF来读取。
        这是初步的想法,但这种做法比较麻烦,看了下API,发现XSSF和HSSF虽然在不同的包里,但却引用了同一接口Workbook,于是想到了这样的读取方法:
        Workbook book = null;
        try {
            book = new XSSFWorkbook(excelFile);
        } catch (Exception ex) {
            book = new HSSFWorkbook(new FileInputStream(excelFile));
        }
        在各版本的Excel中测试,没有发生异常,问题解决。