爬虫搜索引擎实例有兴趣的朋友可以研究一哈

时间:2012-05-22 17:48:06
【文件属性】:

文件名称:爬虫搜索引擎实例有兴趣的朋友可以研究一哈

文件大小:9.58MB

文件格式:RAR

更新时间:2012-05-22 17:48:06

爬虫搜索引擎实例有兴趣的朋友可以研究一哈

关于爬虫技术 一、什么是爬虫 我这里所说的爬虫就是传统的搜索引擎,因为我们一度把YAHOO一类的目录也称作搜索引擎,所以这个概念已经有些混乱了。 搜索引擎:也叫 "蜘蛛"或 "网络爬虫",为了能产生web页的目录册,搜索引擎持续不停的访问internet上的web站点。由于他们是自动运行,并将大量的web页进行索引,搜索引擎也经常能够发现没有列在目录中的信息。 "搜索引擎"这个词一般都用来描述真正的搜索引擎和目录,其实他们并不是一回事,区别在于结果列表是如何编译生成的。 二、搜索引擎与目录的区别 1)搜索引擎: 搜索引擎,如HotBot,自动产生列表。搜索引擎在web上爬行,于是人们用它们来搜索。 如果逆向改变你的web页,搜索引擎最后会发现这些变化。并会对你的列表方式产生变化。页面标题,正文即其他因素都会产生影响。 2)目录: 一个类如Yahoo的目录是依靠人工列表。 你向目录递交一份自己整个站点的描述,或者编辑为他们所看过的站点写一份。 搜索只有在递交的描述中寻找回应。 3)混合搜索引擎:有一些搜索引擎拥有一个相关的目录,包含于一个搜索引擎的目录通常是幸运与质量的结合。 三、搜索引擎的组成部分 搜索引擎由三个主要元素。第一是spider,也叫crawler。 Spider访问一个web页,阅读并接着跟随此站点的其他连结。这就是有人指的站点被spidered或crawled.这个spider就会规律性的访问此站点,如每一两个月,来发现是否有变化。 Spider发现的一切都进入到搜索引擎的第二个部分:索引。有时索引叫做目录,像一本包含有spider发现的每一个web页的巨书,如果有一个web页发生变化,于是此书就会更新新的信息。 有时对于新页面或spiders加到索引中的变化来说它要花一会时间。这样,一个web页也许已被 "发现" 但还没有被 "索引"。在它被索引以前----即加入到索引-----对那些用此搜索引擎搜索人来说是不可用的。 搜索引擎软件是一个搜索引擎的第三个部分。 这就是一种程序-----通过审查上百万记录在索引中的页面来找到搜索的回应并将其归类为他认为是最相关的。 搜索引擎特征页:这一页的信息已经从每一个搜索引擎的帮助页里拿出来,并带有从文章、评论、书籍、独立的研究以及其他来自于各个不同的搜索引擎的信息。 所有的搜索引擎都具有以上描述的基本部分,但这些部分是如何来协调的是有区别的。这就是为什么在不同的搜索引擎上进行同样的搜索经常会产上不同的结果。 四、新趋势 垂直引擎(vertigine:vertical engine), 往往是目录和爬虫技术混合之后的再发展,更加注重科学的分类技术,以搜索的精确性和正确性为首要保证。


网友评论

  • 东西挺全的,不错,谢谢楼主
  • 小弟觉得非常不错,还有学习的连接,楼主很有爱~
  • 刚入门,学习了,资料很多
  • 涵盖面很全
  • 不会用呀 有人能教下吗
  • 刚入门,学习了,资料很多
  • 里面的东西挺全的,不错,谢谢楼主
  • 里面东西是不少,稍微乱了点,但这是我想要的,我正需要JAVA方面的垂直搜索引擎相关的东西,谢谢楼主的资料。
  • 好东西啊,不过代码只有java版本的,我现在想做一个C++的搜索引擎,功能简单点就行,不过看了这些也有很大的帮助,谢谢了