DocumentAnalysis:使用 Hadoop 进行*文档分析下载

【文件属性】：

文件名称：DocumentAnalysis:使用 Hadoop 进行*文档分析

文件大小：84KB

文件格式：ZIP

更新时间：2024-07-26 09:10:02

Java

DocumentAnalysis Wikipedia document analysis using Hadoop Map的每个输入是XML文档的标签到标签。其中key没有意义，value就是这两个标签（包括标签本身）的值，可以通过 .toString() 方法转化为字符串进行下一步处理 src/documentParser TextParser.java 正则表达式处理String，能够去除大部分标点符号，需要补全 XMLHandler.java SAX流形式处理XML格式的字符串

立即下载

【文件预览】：
DocumentAnalysis-master
----.gitignore(21B)
----packup.sh~(51B)
----packup.sh(42B)
----BigData.jar(34KB)
----src()
--------categoryTFIDF()
--------xmlDriver()
--------documentParser()
--------Writables()
--------wordTFIDF()
--------DocumentAnalysis.java(6KB)
--------addPosition()
----bin()
--------categoryTFIDF()
--------xmlDriver()
--------documentParser()
--------Writables()
--------wordTFIDF()
--------addPosition()
--------DocumentAnalysis.class(5KB)
----.classpath(17KB)
----README.md(488B)
----.project(427B)

秒客网

DocumentAnalysis:使用 Hadoop 进行*文档分析

网友评论

相关文章