使用POI读写word docx文件

时间:2023-03-08 15:07:52
使用POI读写word docx文件

目录

1     读docx文件

1.1     通过XWPFWordExtractor读

1.2     通过XWPFDocument读

2     写docx文件

2.1     直接通过XWPFDocument生成

2.2     以docx文件作为模板

POI在读写word docx文件时是通过xwpf模块来进行的,其核心是XWPFDocument。一个XWPFDocument代表一个docx文档,其可以用来读docx文档,也可以用来写docx文档。XWPFDocument中主要包含下面这几种对象:

l  XWPFParagraph:代表一个段落。

l  XWPFRun:代表具有相同属性的一段文本。

l  XWPFTable:代表一个表格。

l  XWPFTableRow:表格的一行。

l  XWPFTableCell:表格对应的一个单元格。

1       读docx文件

跟读doc文件一样,POI在读docx文件的时候也有两种方式,通过XWPFWordExtractor和通过XWPFDocument。在XWPFWordExtractor读取信息时其内部还是通过XWPFDocument来获取的。

1.1     通过XWPFWordExtractor读

在使用XWPFWordExtractor读取docx文档的内容时,我们只能获取到其文本,而不能获取到其文本对应的属性值。下面是一段使用XWPFWordExtractor来读取docx文档内容的示例代码:

  1. public class XwpfTest {
  2. /**
  3. * 通过XWPFWordExtractor访问XWPFDocument的内容
  4. * @throws Exception
  5. */
  6. @Test
  7. public void testReadByExtractor() throws Exception {
  8. InputStream is = new FileInputStream("D:\\test.docx");
  9. XWPFDocument doc = new XWPFDocument(is);
  10. XWPFWordExtractor extractor = new XWPFWordExtractor(doc);
  11. String text = extractor.getText();
  12. System.out.println(text);
  13. CoreProperties coreProps = extractor.getCoreProperties();
  14. this.printCoreProperties(coreProps);
  15. this.close(is);
  16. }
  17. /**
  18. * 输出CoreProperties信息
  19. * @param coreProps
  20. */
  21. private void printCoreProperties(CoreProperties coreProps) {
  22. System.out.println(coreProps.getCategory());   //分类
  23. System.out.println(coreProps.getCreator()); //创建者
  24. System.out.println(coreProps.getCreated()); //创建时间
  25. System.out.println(coreProps.getTitle());   //标题
  26. }
  27. /**
  28. * 关闭输入流
  29. * @param is
  30. */
  31. private void close(InputStream is) {
  32. if (is != null) {
  33. try {
  34. is.close();
  35. } catch (IOException e) {
  36. e.printStackTrace();
  37. }
  38. }
  39. }
  40. }

1.2     通过XWPFDocument读

在通过XWPFDocument读取docx文档时,我们就可以获取到文本比较精确的属性信息了。比如我们可以获取到某一个XWPFParagraph、XWPFRun或者是某一个XWPFTable,包括它们对应的属性信息。下面是一个使用XWPFDocument读取docx文档的示例:

  1. public class XwpfTest {
  2. /**
  3. * 通过XWPFDocument对内容进行访问。对于XWPF文档而言,用这种方式进行读操作更佳。
  4. * @throws Exception
  5. */
  6. @Test
  7. public void testReadByDoc() throws Exception {
  8. InputStream is = new FileInputStream("D:\\table.docx");
  9. XWPFDocument doc = new XWPFDocument(is);
  10. List<XWPFParagraph> paras = doc.getParagraphs();
  11. for (XWPFParagraph para : paras) {
  12. //当前段落的属性
  13. //       CTPPr pr = para.getCTP().getPPr();
  14. System.out.println(para.getText());
  15. }
  16. //获取文档中所有的表格
  17. List<XWPFTable> tables = doc.getTables();
  18. List<XWPFTableRow> rows;
  19. List<XWPFTableCell> cells;
  20. for (XWPFTable table : tables) {
  21. //表格属性
  22. //       CTTblPr pr = table.getCTTbl().getTblPr();
  23. //获取表格对应的行
  24. rows = table.getRows();
  25. for (XWPFTableRow row : rows) {
  26. //获取行对应的单元格
  27. cells = row.getTableCells();
  28. for (XWPFTableCell cell : cells) {
  29. System.out.println(cell.getText());;
  30. }
  31. }
  32. }
  33. this.close(is);
  34. }
  35. /**
  36. * 关闭输入流
  37. * @param is
  38. */
  39. private void close(InputStream is) {
  40. if (is != null) {
  41. try {
  42. is.close();
  43. } catch (IOException e) {
  44. e.printStackTrace();
  45. }
  46. }
  47. }
  48. }

2       写docx文件

2.1     直接通过XWPFDocument生成

在使用XWPFDocument写docx文件时不需要像使用HWPFDocument写doc文件那样必须从一个doc文件开始,我们可以直接new一个空的XWPFDocument,之后再往这个XWPFDocument里面填充内容,然后再把它写入到对应的输出流中。下面是使用XWPFDocument生成docx文件的示例代码:

  1. public class XwpfTest {
  2. /**
  3. * 基本的写操作
  4. * @throws Exception
  5. */
  6. @Test
  7. public void testSimpleWrite() throws Exception {
  8. //新建一个文档
  9. XWPFDocument doc = new XWPFDocument();
  10. //创建一个段落
  11. XWPFParagraph para = doc.createParagraph();
  12. //一个XWPFRun代表具有相同属性的一个区域。
  13. XWPFRun run = para.createRun();
  14. run.setBold(true); //加粗
  15. run.setText("加粗的内容");
  16. run = para.createRun();
  17. run.setColor("FF0000");
  18. run.setText("红色的字。");
  19. OutputStream os = new FileOutputStream("D:\\simpleWrite.docx");
  20. //把doc输出到输出流
  21. doc.write(os);
  22. this.close(os);
  23. }
  24. /***
  25. * 写一个表格
  26. * @throws Exception
  27. */
  28. @Test
  29. public void testWriteTable() throws Exception {
  30. XWPFDocument doc = new XWPFDocument();
  31. //创建一个5行5列的表格
  32. XWPFTable table = doc.createTable(5, 5);
  33. //这里增加的列原本初始化创建的那5行在通过getTableCells()方法获取时获取不到,但通过row新增的就可以。
  34. //    table.addNewCol(); //给表格增加一列,变成6列
  35. table.createRow(); //给表格新增一行,变成6行
  36. List<XWPFTableRow> rows = table.getRows();
  37. //表格属性
  38. CTTblPr tablePr = table.getCTTbl().addNewTblPr();
  39. //表格宽度
  40. CTTblWidth width = tablePr.addNewTblW();
  41. width.setW(BigInteger.valueOf(8000));
  42. XWPFTableRow row;
  43. List<XWPFTableCell> cells;
  44. XWPFTableCell cell;
  45. int rowSize = rows.size();
  46. int cellSize;
  47. for (int i=0; i<rowSize; i++) {
  48. row = rows.get(i);
  49. //新增单元格
  50. row.addNewTableCell();
  51. //设置行的高度
  52. row.setHeight(500);
  53. //行属性
  54. //       CTTrPr rowPr = row.getCtRow().addNewTrPr();
  55. //这种方式是可以获取到新增的cell的。
  56. //       List<CTTc> list = row.getCtRow().getTcList();
  57. cells = row.getTableCells();
  58. cellSize = cells.size();
  59. for (int j=0; j<cellSize; j++) {
  60. cell = cells.get(j);
  61. if ((i+j)%2==0) {
  62. //设置单元格的颜色
  63. cell.setColor("ff0000"); //红色
  64. } else {
  65. cell.setColor("0000ff"); //蓝色
  66. }
  67. //单元格属性
  68. CTTcPr cellPr = cell.getCTTc().addNewTcPr();
  69. cellPr.addNewVAlign().setVal(STVerticalJc.CENTER);
  70. if (j == 3) {
  71. //设置宽度
  72. cellPr.addNewTcW().setW(BigInteger.valueOf(3000));
  73. }
  74. cell.setText(i + ", " + j);
  75. }
  76. }
  77. //文件不存在时会自动创建
  78. OutputStream os = new FileOutputStream("D:\\table.docx");
  79. //写入文件
  80. doc.write(os);
  81. this.close(os);
  82. }
  83. /**
  84. * 关闭输出流
  85. * @param os
  86. */
  87. private void close(OutputStream os) {
  88. if (os != null) {
  89. try {
  90. os.close();
  91. } catch (IOException e) {
  92. e.printStackTrace();
  93. }
  94. }
  95. }
  96. }

2.2     以docx文件作为模板

当然,我们也可以像写doc文件那样,先以一个docx文件作为模板,然后建立基于该docx文件的XWPFDocument对象,再把里面一些变化的信息在运行时进行替换,之后将XWPFDocument进行输出就可以了。所不同的是XWPFDocument中没有像HWPFDocument中那样的Range可以用来直接替换内容。而且底层的XWPFParagraph和XWPFRun也不支持直接将文本进行替换。倒是XWPFRun提供了一个设置文本的方法,不过新的文本不会替换旧的文本,而是会追加到原来的文本之后。现在的一个做法是先找出含有需要替换的变量的XWPFRun,然后将其移除,之后在原来的位置新增一个XWPFRun,其对应的文本是替换变量之后的文本。不过你设置的那个的变量的位置不一定就在一个XWPFRun里面,它有可能会被拆分到两个甚至更多的XWPFRun中,所以不是很有必要的话还是不推荐使用这种方式。

假设我们有一个docx文件,其内容是这样的:

使用POI读写word docx文件

之后我们以该文件作为模板,利用相关数据把里面的变量进行替换,然后把替换后的文档输出到另一个docx文件中。具体做法如下:

  1. public class XwpfTest {
  2. /**
  3. * 用一个docx文档作为模板,然后替换其中的内容,再写入目标文档中。
  4. * @throws Exception
  5. */
  6. @Test
  7. public void testTemplateWrite() throws Exception {
  8. Map<String, Object> params = new HashMap<String, Object>();
  9. params.put("reportDate", "2014-02-28");
  10. params.put("appleAmt", "100.00");
  11. params.put("bananaAmt", "200.00");
  12. params.put("totalAmt", "300.00");
  13. String filePath = "D:\\word\\template.docx";
  14. InputStream is = new FileInputStream(filePath);
  15. XWPFDocument doc = new XWPFDocument(is);
  16. //替换段落里面的变量
  17. this.replaceInPara(doc, params);
  18. //替换表格里面的变量
  19. this.replaceInTable(doc, params);
  20. OutputStream os = new FileOutputStream("D:\\word\\write.docx");
  21. doc.write(os);
  22. this.close(os);
  23. this.close(is);
  24. }
  25. /**
  26. * 替换段落里面的变量
  27. * @param doc 要替换的文档
  28. * @param params 参数
  29. */
  30. private void replaceInPara(XWPFDocument doc, Map<String, Object> params) {
  31. Iterator<XWPFParagraph> iterator = doc.getParagraphsIterator();
  32. XWPFParagraph para;
  33. while (iterator.hasNext()) {
  34. para = iterator.next();
  35. this.replaceInPara(para, params);
  36. }
  37. }
  38. /**
  39. * 替换段落里面的变量
  40. * @param para 要替换的段落
  41. * @param params 参数
  42. */
  43. private void replaceInPara(XWPFParagraph para, Map<String, Object> params) {
  44. List<XWPFRun> runs;
  45. Matcher matcher;
  46. if (this.matcher(para.getParagraphText()).find()) {
  47. runs = para.getRuns();
  48. for (int i=0; i<runs.size(); i++) {
  49. XWPFRun run = runs.get(i);
  50. String runText = run.toString();
  51. matcher = this.matcher(runText);
  52. if (matcher.find()) {
  53. while ((matcher = this.matcher(runText)).find()) {
  54. runText = matcher.replaceFirst(String.valueOf(params.get(matcher.group(1))));
  55. }
  56. //直接调用XWPFRun的setText()方法设置文本时,在底层会重新创建一个XWPFRun,把文本附加在当前文本后面,
  57. //所以我们不能直接设值,需要先删除当前run,然后再自己手动插入一个新的run。
  58. para.removeRun(i);
  59. para.insertNewRun(i).setText(runText);
  60. }
  61. }
  62. }
  63. }
  64. /**
  65. * 替换表格里面的变量
  66. * @param doc 要替换的文档
  67. * @param params 参数
  68. */
  69. private void replaceInTable(XWPFDocument doc, Map<String, Object> params) {
  70. Iterator<XWPFTable> iterator = doc.getTablesIterator();
  71. XWPFTable table;
  72. List<XWPFTableRow> rows;
  73. List<XWPFTableCell> cells;
  74. List<XWPFParagraph> paras;
  75. while (iterator.hasNext()) {
  76. table = iterator.next();
  77. rows = table.getRows();
  78. for (XWPFTableRow row : rows) {
  79. cells = row.getTableCells();
  80. for (XWPFTableCell cell : cells) {
  81. paras = cell.getParagraphs();
  82. for (XWPFParagraph para : paras) {
  83. this.replaceInPara(para, params);
  84. }
  85. }
  86. }
  87. }
  88. }
  89. /**
  90. * 正则匹配字符串
  91. * @param str
  92. * @return
  93. */
  94. private Matcher matcher(String str) {
  95. Pattern pattern = Pattern.compile("\\$\\{(.+?)\\}", Pattern.CASE_INSENSITIVE);
  96. Matcher matcher = pattern.matcher(str);
  97. return matcher;
  98. }
  99. /**
  100. * 关闭输入流
  101. * @param is
  102. */
  103. private void close(InputStream is) {
  104. if (is != null) {
  105. try {
  106. is.close();
  107. } catch (IOException e) {
  108. e.printStackTrace();
  109. }
  110. }
  111. }
  112. /**
  113. * 关闭输出流
  114. * @param os
  115. */
  116. private void close(OutputStream os) {
  117. if (os != null) {
  118. try {
  119. os.close();
  120. } catch (IOException e) {
  121. e.printStackTrace();
  122. }
  123. }
  124. }
  125. }

经过上面的代码所示的过程处理后,我们替换变量后新输出来的docx文件的内容是这样的:

使用POI读写word docx文件