文件名称:基于Map/Reduce的网页消重并行算法 (2007年)
文件大小:257KB
文件格式:PDF
更新时间:2024-06-16 00:12:52
自然科学 论文
网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量。提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能。
文件名称:基于Map/Reduce的网页消重并行算法 (2007年)
文件大小:257KB
文件格式:PDF
更新时间:2024-06-16 00:12:52
自然科学 论文
网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量。提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能。