文件名称:搜索引擎中网络爬虫的研究
文件大小:3.51MB
文件格式:NH
更新时间:2015-06-08 13:37:13
搜索引擎 网络爬虫 论文
搜索引擎中网络爬虫的研究 论文 武汉理工大学硕士学位论文 第1章引言 1.1选题背景 人类社会的发展离不开知识的获取与发现,进入互联网时代以后,信息出现 了飞速地增长,对于网络上不断涌现的各种信息,人们的接受能力却是十分有 限的,这时人们就急切的需要一种技术手段,能够使信息的获取更加方便、准 确川。在这种需求的带动下,搜索引擎出现了,经过了几十年的发展,搜索引擎 现在己经成为了我们日常上网必备的工具之一,使用搜索引擎我们可以比较方 便地查找到所需要的信息,搜索也渐渐成为了人们开启互联网世界大门的一把 钥匙。 从技术的本质来讲,搜索引擎其实是信息检索技术在互联网时代的一种应用 表现形式。信息检索技术起源于对文献的参考查询和摘录索引工作,早在十九 世纪下半叶就已经开始对其进行相关的研究。信息检索包括对信息的存储、组 织、表现、查询、存取等几个方面[2]。其中对信息的索引和检索是关键,通过对 信息合理的组织可以使用户能够更加方便的对其进行访问;如何将用户的要求 准确合理的表达出来也是一个问题,往往需要使用系统规定的查询语言将用户 的要求通过规范化的形式表达出来;根据用户提出的查找要求,系统接下来所 做的工作就是准确、快速的返回符合要求的内容。信息检索技术发展到今天已 经积累了许多成熟的理论,这些理论为搜索引擎的发展提供了强大的理论支撑。 1.2关于搜索引擎与爬虫 搜索引擎的工作过程,主要包括三个步骤[3]:从网上获取页面、建立索引、 从索引中查找结果并排序。 (1)从网上获取页面:搜索引擎的网络爬虫程序每隔一段时间就会对网上的页 面进行遍历,从一些页面开始,通过页面上的链接爬行到其它的页面,反复地 进行这个过程,在爬行的过程中会对相应的页面进行存储,为下一步的工作提 供原始的页面数据[410 <2)建立索引:搜索引擎的索引模块会对爬虫获取的页面进行分析,根据页面