search-1047:一个基于Nutch和Hadoop简单搜索引擎

时间:2024-06-03 05:01:36
【文件属性】:

文件名称:search-1047:一个基于Nutch和Hadoop简单搜索引擎

文件大小:64KB

文件格式:ZIP

更新时间:2024-06-03 05:01:36

Java

search-1047 基于Nutch和Hadoop简易搜索引擎,排序的依据主要是PageRank以及由倒排索引文件计算的url page与输入模式的余弦距离值。 Nutch & Hadoop Nutch-1.9:. Nutch爬取产生的链接数据库(MapFile Format)linkdb,以及url的文本库segments/parse_text作为Hadoop输入。 Hadoop-2.6.0:. 文本预处理 作为PageRank的输入 SequenceFileRead.java: 将linkdb/data(SequenceFile Format)转换成linkdb_data(Text Format). OutLinks.java(MapReduce): 将linkdb_data转换成OutLinks_db(Text Format: 每行的第一个字段为源url,后面的所有字段为第一


【文件预览】:
search-1047-master
----LICENSE(11KB)
----src()
--------SequenceFile.java(1KB)
--------Search.java(4KB)
--------TermsSearch.java(4KB)
--------MapFileRead.java(2KB)
--------SequenceFileRead.java(1KB)
--------UrlModulus.java(3KB)
--------TermsSelector.java(5KB)
--------OutLinks.java(3KB)
--------OutLinkNum.java(3KB)
--------SearchReSort.java(2KB)
--------PageRank.java(4KB)
----lib()
--------SearchPackage()
--------Search.jar(29KB)
----libexec()
--------TermsSelect.sh(820B)
--------PageRank.sh(2KB)
--------PageRankCmp(376B)
--------UrlModulus.sh(1KB)
--------TermsSearch.sh(2KB)
--------PreProcess.sh(182B)
--------OutLinks.sh(3KB)
--------search.sh(712B)
----README.md(2KB)

网友评论