apache tika jar包

时间:2015-06-14 04:40:47
【文件属性】:

文件名称:apache tika jar包

文件大小:24.52MB

文件格式:JAR

更新时间:2015-06-14 04:40:47

tika

Apache Tika 利用现有的解析类库,从不同格式的文档中(例如HTML, PDF, Doc),侦测和提取出元数据和结构化内容。   功能包括:   侦测文档的类型,字符编码,语言,等其他现有文档的属性。   提取结构化的文字内容。   该项目的目标使用群体主要为搜索引擎以及其他内容索引和分析工具。编程语言为Java.


网友评论

  • 很不错 赞一个
  • 调用parseToString报错了, org.apache.tika.exception.TikaException: Error creating OOXML extractor
  • 安卓上不知道能不能用?最新的1.11导入后编译过不了,这个试试。
  • 这个可以有,挺好用
  • 还好吧,并不是很全 StandardAnalyzer没有
  • 刚好学习lucene用到tika,赞
  • 挺好用的啊.
  • 谢谢分享,非常实用
  • 程序中需要的jar包
  • 刚好学习lucene用到tika,赞
  • 版本很新,是源代码!