文件名称:Hadoop下的分布式搜索引擎
文件大小:1.5MB
文件格式:KDH
更新时间:2014-05-19 14:32:21
Hadoop下的分布式搜索引擎
引言 互联网的高速发展使Internet上信息数量呈几何式 增长。现有的集中式搜索引擎从如此海量的信息中快速检 索出真正需要的信息正变得越来越困难,所以搜索引擎系 统应具有分布式处理能力,能根据需要处理信息的增长, 不断地扩展系统规模以增强系统处理信息的能力。因此, 构建分布式搜索引擎就变得非常有意义了。本文首先分析 了Map/Reduce编程模型运行原理及其优点,其次介绍 了Map/Reduce模型的开源实现版本——Hadoop分布 式处理平台,在此基础上将搜索引擎的爬行器、索引器和 查询器三个功能模块按照Map/Reduce模型进行设计, 充分利用Hadoop的集群拓扑特性,实现了搜索引擎的分 布式处理、高可靠性和易扩展性。同时分析了PageRank 算法的优缺点,引入时间平衡因子对算法进行改进。