DocumentAnalysis:使用 Hadoop 进行*文档分析

时间:2024-07-26 09:10:02
【文件属性】:

文件名称:DocumentAnalysis:使用 Hadoop 进行*文档分析

文件大小:84KB

文件格式:ZIP

更新时间:2024-07-26 09:10:02

Java

DocumentAnalysis Wikipedia document analysis using Hadoop Map的每个输入是XML文档的 标签到 标签。其中key没有意义,value就是这两个标签(包括标签本身)的值,可以通过 .toString() 方法转化为字符串进行下一步处理 src/documentParser TextParser.java 正则表达式处理String,能够去除大部分标点符号,需要补全 XMLHandler.java SAX流形式处理XML格式的字符串


【文件预览】:
DocumentAnalysis-master
----.gitignore(21B)
----packup.sh~(51B)
----packup.sh(42B)
----BigData.jar(34KB)
----src()
--------categoryTFIDF()
--------xmlDriver()
--------documentParser()
--------Writables()
--------wordTFIDF()
--------DocumentAnalysis.java(6KB)
--------addPosition()
----bin()
--------categoryTFIDF()
--------xmlDriver()
--------documentParser()
--------Writables()
--------wordTFIDF()
--------addPosition()
--------DocumentAnalysis.class(5KB)
----.classpath(17KB)
----README.md(488B)
----.project(427B)

网友评论