文件名称:Wikipedia_Graph_Analysis_Single_Source_Shortest_Path_using_Hadoop:Wikipedia_Graph_Analysis_Single_Source_Shortest_Path_using_Hadoop
文件大小:14.18MB
文件格式:ZIP
更新时间:2024-05-25 08:21:43
Java
通过以分布式方式创建Wikipedia的Webgraph并通过使用BFS(也以分布式方式)求解最短路径来计算从Wikipedia的一页到另一页的最短路径的代码。 从其下载页面下载Wikipedia数据。 它应为10 GB左右或使用提供的简单Wikipedia数据 只需执行以下步骤0。bunzip2 simplewiki-latest-pages-articles.xml.bz2 将文件放入hdfs hadoop fs -put simplewiki-latest-pages-articles.xml 使用2. mvn包进行编译 使用manish.hadoop.Wikipedia包中的XML2GraphConvert.java文件对其进行转换。 3. hadoop jar target / WikipediaAnalysis-1.0-SNAPSHOT.jar manish.hadoo