文件名称:hadoop-wikipedia-example:使用 Hadoop 查找所有*链接
文件大小:9.7MB
文件格式:ZIP
更新时间:2024-06-24 23:24:17
Java
使用*转储的 Hadoop 示例 通过 这个 Hadoop 项目可以在 Wikipedia 中找到所有链接。 它解析完整的*100 Go转储 XML。 如何使用 1-导入转储简单 /wikidump 文件夹中提供了*转储示例。 解压缩并将xml导入hadoop。 $ cd wikidump $ unzip wikidump_sample.xml.zip $ hadoop fs -mkdir hadoop_sample $ hadoop fs -copyFromLocal wikidump_sample.xml hadoop_sample/ 2-编译hadoop项目 $ cd ../ $ mvn clean install 3- 运行 hadoop *链接查找器 $ hadoop jar today/target/today-1-jar-with-depend
【文件预览】:
hadoop-wikipedia-example-master
----wikiParser()
--------pom.xml(2KB)
--------src()
----pom.xml(2KB)
----wikidump()
--------wikidump_sample.xml.zip(9.69MB)
--------fullDump.txt(168B)
----today()
--------pom.xml(3KB)
--------src()
----.gitignore(97B)
----README.md(2KB)