【文件属性】:
文件名称:hadoop-wikipedia-example:使用 Hadoop 查找所有*链接
文件大小:9.7MB
文件格式:ZIP
更新时间:2021-06-05 05:37:37
Java
使用*转储的 Hadoop 示例
通过
这个 Hadoop 项目可以在 Wikipedia 中找到所有链接。 它解析完整的*100 Go转储 XML。
如何使用
1-导入转储简单
/wikidump 文件夹中提供了*转储示例。 解压缩并将xml导入hadoop。
$ cd wikidump
$ unzip wikidump_sample.xml.zip
$ hadoop fs -mkdir hadoop_sample
$ hadoop fs -copyFromLocal wikidump_sample.xml hadoop_sample/
2-编译hadoop项目
$ cd ../
$ mvn clean install
3- 运行 hadoop *链接查找器
$ hadoop jar today/target/today-1-jar-with-depend
【文件预览】:
hadoop-wikipedia-example-master
----wikiParser()
--------pom.xml(2KB)
--------src()
----pom.xml(2KB)
----wikidump()
--------wikidump_sample.xml.zip(9.69MB)
--------fullDump.txt(168B)
----today()
--------pom.xml(3KB)
--------src()
----.gitignore(97B)
----README.md(2KB)