文章组织结构-浅谈pci+express体系结构导读

时间:2024-06-28 17:45:02
【文件属性】:

文件名称:文章组织结构-浅谈pci+express体系结构导读

文件大小:2.31MB

文件格式:PDF

更新时间:2024-06-28 17:45:02

Hadoop 分布式 网络爬虫

1.4 需求分析 1.4.1 功能分析 系统应该可以很好的完成网页爬取,网页解析等基本功能。将爬取来的网页存储起 来用于用户查看。还应该根据用户的需要可以随时停止爬取工作。最后应该提供一个友 好的界面供用户使用。 1.4.2 性能分析 分布式网络爬虫系统较之单机网络爬虫系统最明显的优点就是爬取网页速度远远高 于单机网络爬虫系统。所以一个合格的分布式网络爬虫系统应该具有非常快的爬取速度。 其速度应该随集群内的节点数量持线性增长。所以一个分布式网络爬虫系统的性能取决 于其集群内的节点数量。单机网络爬虫的爬取速度为 v,则分布式网络爬虫的爬取速度则 V = n*v*k。其中 n 为集群内节点数目。k 根据系统设计取值 0-1。一个优秀的分布式网络 爬虫系统的 k 值应该接近于 1[8]。 1.5 文章组织结构 本文首先提出了近年来 Web 信息海量飞速增长,传统的单机网络爬虫已经无法胜任 爬取工作,由此引出了分布式网络爬虫。简单介绍了 Hadoop 框架在设计一个分布式系统 的优越性。进而提出了在 Hadoop 平台上开发一个分布式网络爬虫系统。然后介绍实现分 布式爬虫系统的基本原理,以及关键技术,包括爬取策略,去重算法等。之后讲解了分 布式爬虫系统的详细设计。并在文章末尾展示了测试运行结果和对本课题的总结。 本文的内容结构共分为,介绍如下: 第1章,绪论,介绍了课题背景和研究意义以及需求分析和主要研究内容。最后详细 讲述了主要工作以及全文的组织结构。 第2章,基本原理和关键技术,本章主要描述了关于分布式网络爬虫系统的主要理论 知识,之后介绍了开发过程中需要用到的一些关键技术。


网友评论