------------------------------------------2013.7.26------------------------------------------
近地面大气温度31°C,天气晴。
昨天了解到java有一个jacob开源库可以将word转换为html格式。
【猜想】word中的图表信息会在html中转换为相似的table等标签进行存储。
如果猜想正确的话,便可以分析提取html文档中的有效信息,进一步生成规定格式的xml文档。
【下午的工作】
上午的猜想完全正确。
在浏览了一些关于jacob的资料之后,成功的引用jacob库将包含表格的word文档转化成了html及txt格式。
特别感谢ID=捂汗县长 文章中的资料。
参考资料:jacob 实现Office Word文件格式转换..:http://blog.csdn.net/laoyaotask/article/details/9391435
期间遇到了无法读写源word文档的问题,是由该源文件为只读格式引起的,更改之后问题解决。
【下步计划】
因为转化成的html文档也只是单纯的文本,而不存在标签,所以在比较之后决定直接使用txt格式的文档使用自然语言处理(NLP)对其进行数据的挖掘。
------------------------------------------2013.7.31------------------------------------------
近地面大气温度29°C,天气晴,略有雾霾。
明天就踏上回家的旅程了~略开心,虽然取票的时候遇到了一些小波折。
【想法】希望今天可以把批量转化实现,打算继续使用java来实现,主要是为了方便之前的代码拼合。
【上午的工作】
实现了今天的想法。将指定目录下的所有word文档批量转化为了txt文档。
了解了java中的一些关于文件调用的方法。
//获取当前文件对象的文件名,转为字符串格式并判断是否以.doc结尾
File file.getName().toString().endWith(.doc);
//判断该文件对象是否为文件夹
File file.isDirectory();
//获取路径下所有的文件和文件夹【.listFile()】
File[] files = path.listFiles(new FileFilter()
参考资料来源:
java遍历目录下所有后缀名为.java的文件:http://zhidao.baidu.com/question/229445883.html
java FileFilter 过滤只保留文件夹和.xls文件:http://zhidao.baidu.com/question/538907121.html
【下步计划】
其实就是26号的【下步计划】,不过转换成xml的方法初期将换为正则表达式。
——————————因为学习计划变更,该项目暂时终止——2014.3.7——————————