Mini-Google:Google风格的搜索引擎

时间:2024-06-08 09:21:47
【文件属性】:

文件名称:Mini-Google:Google风格的搜索引擎

文件大小:32.93MB

文件格式:ZIP

更新时间:2024-06-08 09:21:47

Java

#Mini-Google 在Amazon的AWS生态系统上托管的Googe风格搜索引擎的对等实现。 我们的搜索引擎会返回相关结果,这取决于我们对PageRank算法的实现以及从200,000多个Web文档中生成的单词索引。 我们使用Okapi BM25算法为候选文档提供相关性得分,并将其与候选文档中查询词的单词位置,候选文档的PageRank和候选文档的域的Alexa排名相结合,以生成最终的搜索排名结果。 我们的搜索引擎包含四个主要部分: 分布式爬网程序:由多个用于爬网文档的工作节点和一个主节点组成,工作节点向其报告状态。 每个搜寻器负责定义的域子集(基于每个URL的域的Java分配的哈希码),并负责将URL直接重新分配给其他搜寻器。 索引器:从搜寻器中获取文档并创建词典,反向索引以及其他信息(例如,单词位置,匹配类型等)。 我们为不同类型的文档(包括pdf,html,xml和


网友评论