iText生成PDF文件

时间:2024-04-27 09:07:43

导语:

        本文基于 iText7 :7.1.16 生成。 官方文档链接:iText

        从版本入口可进入到下面页面 

一、引言

         常见生成PDF文件的有两种方法,一是先生成 word文档,然后将word转换成PDF文件;另一种则是直接生成PDF文件。

1.1.word转换PDF

1.1.1.技术介绍 

        生成Word文件并将其转换为PDF文件,可以使用多种Java库和JAR包。以下是一些常用的库和JAR包:

  1. Apache POI:这是一个用于操作Microsoft Office格式文件的Java库。你可以使用它来创建和编辑Word文档(.doc或.docx)。
  2. Spire.Doc for Java:这是一个功能强大的Java库,用于创建、编辑、转换和打印Word文档。它支持将Word文档转换为PDF格式。Spire.Doc for Java的JAR包可以直接添加到你的Java项目中。
  3. Aspose.Words for Java:Aspose.Words是一个用于处理Word文档的Java库,它提供了丰富的API来创建、编辑和转换Word文档。这个库也支持将Word文档转换为PDF。
  4. iText:虽然iText主要用于处理PDF文件,但它也可以与其他库(如Apache POI或Spire.Doc)结合使用,以实现从Word到PDF的转换。iText的JAR包可用于在Java项目中添加PDF处理功能。

        而Word到PDF转换的步骤如下所示:

  1. 生成Word文件并保存:使用Apache POI或Spire.Doc的API创建或编辑Word文档。将编辑后的Word文档保存到磁盘上的某个位置。
  2. 转换Word为PDF并保存:使用Spire.Doc或Aspose.Words的API将Word文档转换为PDF格式。这通常涉及读取Word文档、创建一个PDF文档,然后将Word文档的内容复制到PDF文档中。将转换后的PDF文档保存到磁盘上的指定位置。

 1.1.2.补充说明

        由上述说明可知,生成一次PDF文件需要保存两次,这极大的浪费了系统的内存;同时,word转换PDF有限制,只能转换少量页数,当大文件转换时,就需要进入收费阶段了。种种限制,让这种方法变得并不实用。 

1.2.iText7 生成PDF 

        iText是一个开源库,用于创建和操作PDF文件。本文则主要用 iText 7 进行测试与文件生成。pom核心jar文件: 

<!--  核心jar,用于生成PDF文件 --->
        <dependency>
            <groupId>com.itextpdf</groupId>
            <artifactId>itext7-core</artifactId>
            <version>7.1.16</version>
            <type>pom</type>
        </dependency>


<!--  用于日志打印,可用可不用--->
        <dependency>
            <groupId>org.projectlombok</groupId>
            <artifactId>lombok</artifactId>
            <version>1.18.20</version>
            <scope>compile</scope>
        </dependency>

<!--  用于数据库连接,可用可不用--->
        <dependency>
            <groupId>org.mybatis.spring.boot</groupId>
            <artifactId>mybatis-spring-boot-starter</artifactId>
            <version>1.1.1</version>
        </dependency>

二、工具类

2.1.代码示例 

import com.itextpdf.io.font.PdfEncodings;
import com.itextpdf.kernel.font.PdfFont;
import com.itextpdf.kernel.font.PdfFontFactory;
import com.itextpdf.kernel.geom.PageSize;
import com.itextpdf.kernel.pdf.PdfDocument;
import com.itextpdf.kernel.pdf.PdfWriter;
import com.itextpdf.layout.Document;
import com.itextpdf.layout.element.*;
import com.itextpdf.layout.property.HorizontalAlignment;
import com.itextpdf.layout.property.TextAlignment;
import lombok.extern.slf4j.Slf4j;
import org.springframework.stereotype.Component;
//import com.itextpdf.layout.property.UnitValue;


import java.io.IOException;
import java.util.List;

@Slf4j
@Component
public class PdfGenerator {


    public void createPdf(String fileName, String title, String titleRow, String[] headerText, List<String[]> data) throws IOException {
        PdfDocument pdfDoc = new PdfDocument(new PdfWriter(fileName));
        Document doc = new Document(pdfDoc, PageSize.A4);

        // 设置字体  simhei.ttf黑体  SimSun宋体
        PdfFont font = PdfFontFactory.createFont("simhei.ttf", PdfEncodings.IDENTITY_H, true);
//        PdfFont font = PdfFontFactory.createFont("SimSun", "UniGB-UCS2-H", false);

//        String text = "文章内容";
//        if (null != text){
//            txtSet(doc,text,font);
//        }

        // 设置标题
        if (null != title){
            titleSet(doc,title,font);
        }

        // 创建表格
        int numColumns = (null == headerText) ? data.get(0).length : headerText.length;
        Table table = new Table(numColumns);
//        table.setWidth(UnitValue.createPercentValue(100)); // 表格宽度设置为100%  
//        table.setFixedPosition(1, 1, 1); // 设置表格在页面上的位置(可选)  
        if (!(null == titleRow)){
            titleCell(table,titleRow,headerText.length,font);     // 添加标题行
        }
        // 添加表头
        for (int i = 0; i < headerText.length; i++) {
            headerCell(table,headerText[i],font);
        }
        //添加内容
        for (int i = 0; i < data.size(); i++) {
            for (int j = 0; j < data.get(i).length; j++) {
                contextCell(table,data.get(i)[j],font);
            }
        }
        // 使用Div容器来居中表格
        Div div = new Div();
        div.setHorizontalAlignment(HorizontalAlignment.CENTER); // 设置Div水平居中
        div.add(table); // 将表格添加到Div中
        // 将Div添加到文档中
        doc.add(div);
        // 关闭文档
        doc.close();
        log.info(fileName+"Pdf文件创建成功!");
    }

    //设置文本
    public void txtSet(Document doc,String data,PdfFont font){
        Paragraph titleText = new Paragraph(data).setTextAlignment(TextAlignment.CENTER).setFont(font).setFontSize(12);
        doc.add(titleText);
    }
    //设置标题
    public void titleSet(Document doc,String data,PdfFont font){
        Paragraph titleText = new Paragraph(data).setTextAlignment(TextAlignment.CENTER).setFont(font).setFontSize(20);
        doc.add(titleText);
    }
    //设置标题行
    public void titleCell(Table table,String data,int col,PdfFont font){
        Cell headerCell = new Cell(1,col).add(new Paragraph(data).setTextAlignment(TextAlignment.CENTER).setFont(font).setFontSize(14));
        table.addCell(headerCell);
    }
    //设置表头
    public void headerCell(Table table,String data,PdfFont font){
        Cell cell = new Cell().add(new Paragraph(data).setTextAlignment(TextAlignment.CENTER).setFont(font).setFontSize(12));
        table.addCell(cell);
    }
    //设置内容
    public void contextCell(Table table,String data,PdfFont font){
        Cell cell = new Cell().add(new Paragraph(data).setTextAlignment(TextAlignment.CENTER).setFont(font).setFontSize(10));
        table.addCell(cell);
    }

}

 2.2.示例解释

2.2.1.字体 

         PdfFont font = PdfFontFactory.createFont("simhei.ttf", PdfEncodings.IDENTITY_H, false);同PdfFontFactory.createFont(new File("path/to/font.ttf"), PdfEncodings.IDENTITY_H, true)。

        这行代码的主要目的是加载一个名为“simhei.ttf”的字体文件,并使用Unicode编码方式,但不将其嵌入到生成的PDF文档中。

        PdfFontFactory.createFont(): PdfFontFactory是iText库中的一个工具类,用于创建PdfFont对象。它的createFont()方法是创建新字体的主要方法。
        "simhei.ttf": 这是字体文件的路径或名称。在这个例子中,它指的是“黑体”字体的TrueType字体文件(.ttf)。你需要确保这个字体文件在你的项目路径下是可用的,或者提供完整的文件路径。该字体在网上容易下载,所以本文没有提供。实在找不到的,可以使用下面的宋体(SimSun)。字体很重要,因为个别时候会中文乱码。
        PdfEncodings.IDENTITY_H: 这是字体的编码方式。PdfEncodings.IDENTITY_H通常用于Unicode字体,确保在PDF文档中正确地表示和显示字符。
        false: 这个布尔值参数通常用于指示字体是否应该被嵌入到生成的PDF文档中。设置为false意味着字体不会被嵌入,这通常在你确定阅读PDF的客户端已经安装了该字体时是可行的。但是,为了确保最大的兼容性,通常建议将字体嵌入到PDF中,因此你可能会将这个值设置为true。

        值得一提的是,iText5 和 iText7 创建字体所用的方法不一样。

        iText5: 

BaseFont baseFont = BaseFont.createFont("path/to/simhei.ttf", 
BaseFont.IDENTITY_H, BaseFont.EMBEDDED);  
Font font = new Font(baseFont, 12);

        iText7: 

PdfFont font = PdfFontFactory.createFont("path/to/simhei.ttf", 
PdfEncodings.IDENTITY_H, true);

2.2.2.文章内容 

         “文章内容” 被注掉了,该内容本应由方法入口传入,但我这里为测试大数据生成文件,所以正文由表格组成。把注释放开,并把内容加到方法入口,该工具类使用起来就就更全面。

2.2.3. div标签的使用 

        在 iText 7 中,并没有表格居中的设置,所以如果需要表格居中,通常使用div。在iText 7中,设置表格居中通常涉及设置表格的对齐属性或者将表格放置在一个容器元素中,如Div,并设置该容器的对齐属性。

        Div元素允许您将多个内容元素(如段落、表格、图像等)组合在一起,并设置这些元素的整体属性,比如对齐方式、边距、填充等。这对于创建具有特定布局和样式的内容块非常有用。

        如果您在尝试使用Div元素时遇到问题,可能是因为您没有正确地导入相关的包或类。请确保您的项目中包含了iText 7的依赖,并且您已经导入了com.itextpdf.layout.element.Div类。

2.3.测试结果

        测试一日志打印: 

: /data/NFS/bypay\20240417\20240417_6a9c1b1b_1.pdfPdf文件创建成功!

: 表格数据字节数1191974,运行时间97951ms

        测试一文件展示:(表格行数3.8W)

         测试二日志打印:

: /data/NFS/bypay\20240422\20240422_27ccb22b_1.pdfPdf文件创建成功!

: 表格数据字节数3760636,运行时间917214ms

        测试二文件展示:(表格行数12W+)

        测试三日志打印:

: /data/NFS/bypay\20240407\20240407_a60bda47_1.pdfPdf文件创建成功!

: 表格数据字节数4916250,运行时间1602610ms

         测试三文件展示:(表格行数17W+)

2.4.缺点分析 

        由上述示例可知,仅仅几M 大小的文件,就需要10min+来处理数据,而10M+的数据,更是用了26min+,这严重占用了系统内存,生成效率更是低下。

        第一、回顾测试工具类,发现在每添加一个单元格,都会新建一个Cell单元格对象,每个Cell里还会添加一个Paragraph段落对象,7*17W*2 ≈ 240W,这些对象都会被分配在堆内存中,因为对象实例总是存储在堆中。因此,这个操作会对堆内存造成显著影响。如果堆内存不足以容纳这么多对象,程序可能会抛出OutOfMemoryError

        第二,可以看到,每创建一个Cell,都会进行一次I/O操作,这也严重影响了系统性能。

        第三, fileName 如果涉及未创建目录,也会抛出 java.io.FileNotFoundException,所以,还需要对方法进行改造。

三、方法优化 

3.1.优化思路 

3.1.1.分块处理数据

        不要一次性加载所有数据到内存中。相反,你应该分块或分页加载数据,并为每块或每页数据创建PDF内容。这样,你可以控制内存使用,并避免因内存溢出而导致的错误。

3.1.2.使用流式API

        iText7提供了流式API,允许你逐步构建PDF文档,而不是一次性将所有内容加载到内存中。这对于处理大量数据特别有用。我上面的创建方式就是流式API,其核心思路就是:

  1. 创建Document对象:首先,你需要创建一个Document对象,它代表你要生成的PDF文档。

  2. 使用Table:在流式API中,你仍然使用Table类来创建表格,但是你会以不同的方式添加内容。

  3. 创建Cell对象:对于每个单元格,你可以创建一个Cell对象,并设置其内容和样式。

  4. 添加CellTable:然后,将单元格的Cell对象添加到Table中。

  5. Table添加到Document:最后,将表格添加到文档中。

3.1.3.优化字体和图像的使用

        如果你在PDF中使用了大量字体或图像,确保它们被有效地重用,而不是为每个页面或每个元素都加载一个新的实例。

3.1.4.减少复杂的布局和格式

        复杂的布局和格式可能会增加PDF生成的时间和内存使用。尽量使用简单的布局和格式,或考虑在必要时使用分页和表格来组织数据。

3.1.5.使用缓存

        对于重复使用的对象(如字体、颜色、样式等),考虑使用缓存来减少内存分配和垃圾收集的开销。

3.1.6.异步处理或多线程

        如果可能的话,你可以考虑使用异步处理或多线程来并行处理数据。这样,你可以同时处理多个数据项,而不是一个接一个地顺序处理。但请注意,多线程操作可能会增加代码的复杂性,并需要处理线程安全和同步问题。

3.1.7.监控和调优

        使用性能分析工具来监控你的代码,并找出可能的瓶颈。根据分析结果,对代码进行调优,以提高PDF生成的速度和效率。

3.1.8.考虑其他解决方案

        如果iText7无法满足你的性能需求,你可能需要考虑其他解决方案,如使用数据库报告工具或专门的PDF生成库(如Aspose.PDF、FOP等)。

3.1.9.升级硬件和配置

        确保你的服务器或开发机器具有足够的RAM和CPU资源来处理大量数据。根据需要调整JVM参数,如堆大小(Xmx),以优化内存使用。

3.1.10.测试和验证

        在将解决方案部署到生产环境之前,确保在测试环境中充分测试你的代码。验证生成的PDF文件的准确性和完整性,并测试在不同数据量和配置下的性能。

3.2.工具类优化