本篇笔记和前面的Jsoup学习笔记有连贯性,有些小细节不明白的可以查看前面几篇笔记,要实现的功能是:
1、解析指定目录中的saz文件,生成一个名字相同的htm文件
2、解析生成的htm文件,提取其中table标签内的数据
3、将解析到的数据写入csv文件中,生成一个名字相同的csv文件
示例代码如下:
package com.daxiang.saztest; /** * @Author: 大象Jepson * @Date: 2015-7-23 * @Email: chenjinpeng0326@163.com * @Version: Version1.0 * @CopyRight: 大象Jepson * @Description: 解析指定目录中的saz文件,生成一个名字相同的htm文件, * 解析生成的htm文件,提取其中table标签内的数据, * 将解析到的数据写入csv文件中,生成一个名字相同的csv文件 */ import java.io.File; import java.io.FileOutputStream; import java.io.FileWriter; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import java.util.zip.ZipEntry; import java.util.zip.ZipFile; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; public class SazJsoupTest1 { private static ZipFile zipFile; public static void main(String[] args) throws Exception { // 调用SazTest方法 SazTest(); // 定义存放htm临时文件的路径 String htmPath = "D:\\daxiang\\saztest\\21316.htm"; // 定义存放生成csv文件的路径 String csvPath = "D:\\daxiang\\saztest\\21316.csv"; // 调用JaoupTest方法 JsoupTest(htmPath, csvPath); System.out.println("saz文件解析完成!"); } /** * 解压saz文件的方法 */ public static void SazTest() throws Exception { File file = new File("d:" + File.separator + "daxiang" + File.separator + "saztest" + File.separator + "21316.saz"); // 找到压缩文件 // 解析完成后就此htm文件就没有用了,可以手动删除掉 File outputFile = new File("D:\\daxiang\\saztest\\21316.htm"); zipFile = new ZipFile(file); // 因为已经明确知道saz文件中有一个_index.htm文件,所以可以直接用getEntry()方法得到其压缩实体 ZipEntry entry = zipFile.getEntry("_index.htm"); // 得到一个压缩实体 OutputStream out = new FileOutputStream(outputFile); // 实例化输出流 InputStream input = zipFile.getInputStream(entry); // 得到一个压缩实体的输入流 int temp = 0; while ((temp = input.read()) != -1) { out.write(temp); } input.close(); // 关闭输入流 out.close(); // 关闭输出流 } /** * 解析htm文档的方法 */ public static void JsoupTest(String htmPath, String csvPath) throws IOException { // 导入htm文档 File input = new File(htmPath); Document doc = Jsoup.parse(input, "UTF-8"); // 提取表头信息 Elements heads = doc.getElementsByTag("table").select("thead"); FileWriter fw = new FileWriter(csvPath); for (int m = 0; m < heads.size(); m++) { Elements head = heads.get(m).select("th"); for (int n = 0; n < head.size(); n++) { // 经过观察,该htm文档table标签内共有23列数据,因为只需要第2至12列的数据,所以其他列排除掉不予提取 if (n == 0) { continue; } else if (n < 22) { // text()方法和toString()方法的效果不同 // String h = head.get(n).toString() + "\r\n"; String h = head.get(n).text() + ","; fw.write(h); System.out.print(h); } else if (n == 22) { String h = head.get(n).text() + "\r\n"; fw.write(h); System.out.print(h); } else { break; } } } // 提取表格信息 Elements trs = doc.getElementsByTag("table").select("tr"); for (int i = 0; i < trs.size(); i++) { Elements tds = trs.get(i).select("td"); for (int j = 0; j < tds.size(); j++) { // 把空格无内容的部分去除掉 // if(!"".equals(tds.get(j).text())){ // String str = tds.get(j).text() + "\r\n"; // System.out.print(str); // fw.write(str); // } if (j == 0) { continue; } else if (j < 22) { // 加双引号的作用很大,有些数据是包含逗号的,不处理一下,本来在一个表格里的数据 // 会因为逗号的存在分开到好几列表格中 String str1 = "\"" + tds.get(j).text() + "\""; String str2 = str1 + ","; // System.out.print(str2); fw.write(str2); } else if (j == 22) { String str3 = tds.get(j).text() + "\r\n"; // System.out.print(str3); fw.write(str3); } else { break; } } } fw.flush(); fw.close(); } }附解析完成后生成的csv文件截图,效果如下: