【文件属性】:
文件名称:DocumentAnalysis:使用 Hadoop 进行*文档分析
文件大小:84KB
文件格式:ZIP
更新时间:2021-07-06 15:23:22
Java
DocumentAnalysis
Wikipedia document analysis using Hadoop
Map的每个输入是XML文档的
标签到
标签。其中key没有意义,value就是这两个标签(包括标签本身)的值,可以通过
.toString()
方法转化为字符串进行下一步处理
src/documentParser
TextParser.java
正则表达式处理String,能够去除大部分标点符号,需要补全
XMLHandler.java
SAX流形式处理XML格式的字符串
【文件预览】:
DocumentAnalysis-master
----.gitignore(21B)
----packup.sh~(51B)
----packup.sh(42B)
----BigData.jar(34KB)
----src()
--------categoryTFIDF()
--------xmlDriver()
--------documentParser()
--------Writables()
--------wordTFIDF()
--------DocumentAnalysis.java(6KB)
--------addPosition()
----bin()
--------categoryTFIDF()
--------xmlDriver()
--------documentParser()
--------Writables()
--------wordTFIDF()
--------addPosition()
--------DocumentAnalysis.class(5KB)
----.classpath(17KB)
----README.md(488B)
----.project(427B)