文件名称:java解析word文件的相关代码
文件大小:3KB
文件格式:TXT
更新时间:2014-01-04 09:02:36
java解析word文件
POI是Apache的一个开源项目,可以到Apache网站下载相应的jar包文件,及其源文件。
POI提供了提取一些非TXT文本中文本内容的API,比如提取Word,Excel等,使用起来非常方便。
为了说明POI提起Word文件的方便和简单,通过提取一个Word文件的文本来,来了解POI API的功能。
假设在本地磁盘中存在一个Word文件
E:\POI\word\JBoss3.0 下配置和部署EJB简介.doc文件是具有格式的,内容如图所示:
下面看看提取它的内容是多么简单。
首先从Apache网站上下载POI的相关jar包。
新建一个测试类:
package org.shirdrn.word;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import org.apache.poi.hwpf.extractor.WordExtractor;
public class MyWordExtractor {
public static void main(String[] args) {
File file = new File("E:\\POI\\word\\JBoss3.0 下配置和部署EJB简介.doc");
try {
FileInputStream fis = new FileInputStream(file);
WordExtractor wordExtractor = new WordExtractor(fis);
System.out.println("【 使用getText()方法提取的Word文件的内容如下所示:】");
System.out.println(wordExtractor.getText());
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
}
提取Word文件的文本内容,打印到控制台上,如下所示:
使用WordExtractor类的getTextFromPieces()方法提取:
wordExtractor.getTextFromPieces();
结果和上面是一样的。
WordExtractor类还有一个可以提取Word文件的各个段落的方法getParagraphText(),返回一个String[]数组,数组中每个元素为一个段的文本内容。
这里,对Word文件中换行也看成是一个段,测试如下:
package org.shirdrn.word;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import org.apache.poi.hwpf.extractor.WordExtractor;
public class MyWordExtractor {
public static void main(String[] args) {
File file = new File("E:\\POI\\word\\JBoss3.0 下配置和部署EJB简介.doc");
try {
FileInputStream fis = new FileInputStream(file);
WordExtractor wordExtractor = new WordExtractor(fis);
System.out.println("【 使用getText()方法提取的Word文件的内容如下所示:】");
String[] paragraph = wordExtractor.getParagraphText();
System.out.println("该Word文件共有"+paragraph.length+"段。");
for(int i=0;i