pagerank-hadoop:Hadoop中的PageRank实现

时间:2024-05-30 06:33:53
【文件属性】:

文件名称:pagerank-hadoop:Hadoop中的PageRank实现

文件大小:36KB

文件格式:ZIP

更新时间:2024-05-30 06:33:53

Java

Hadoop中的PageRank实现 介绍 这些Hadoop程序用于分析Wikipedia的页面对页面链接数据库,该数据库可从。 数据集在两个单独的纯文本文件links-simple-sorted.txt和titles-sorted.txt包含页面及其标题之间的links-simple-sorted.txt 。 文件links-simple-sorted.txt具有以下格式: from1: to11 to12 to13 ... from2: to21 to22 to23 ... ... 其中from1是一个整数,它标记一个具有指向它的链接的页面,而to11 to12 to13 ...是一个整数,它标记该页面链接到的所有页面。 文件titles-sorted.txt包含按整数标签逐行排序的所有页面标题。 该项目包含3个Hadoop作业,可以使用脚本TitleIndex.sh , InL


【文件预览】:
pagerank-hadoop-master
----README.md(6KB)
----pom.xml(2KB)
----src()
--------main()
----LICENSE.txt(11KB)

网友评论