网络爬虫的设计和实现

时间:2015-12-08 15:32:02
【文件属性】:

文件名称:网络爬虫的设计和实现

文件大小:31KB

文件格式:ZIP

更新时间:2015-12-08 15:32:02

C# VS2010 网络爬虫 Spider 网络蜘蛛

首先,简单介绍下网络爬虫   网络爬虫是通过网页的链接地址来寻找网页,从网站某一个页面(设置为主页)开始,读取网页的内容,找到网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到这个网站所有的网页都抓取完为止。实际上,由于抓取技术的限制以及存储技术、处理技术的限制,要完全抓取网站的所有网页是不可能的,也是不实际的!本着从用户需要为出发点,实际需要抓取的网页往往是有限的,只需抓取符合用户要求的网页即可! 抓取网页的策略 在抓取网页的时候,网络爬虫一般有两种策略(即两种搜索方法),广度优先和深度优先。 广度优先:是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此页面中链接的所有页面。这是最常用的方式,广度优先的搜索策略可以并行处理,提高抓取速度。 深度优先:是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这种策略较易实现,但是抓取速度慢。 由于一般不可能抓取网站的所有链接,一般会设置访问层数,即搜索深度。起始页的深度为0,起始页中的链接url深度为1,依此类推。 构造C#语言的爬虫程序 C#已经封装了HTTP访问和多线程,这对编写网络爬虫提供了方便,而要C#网络爬虫程序需要解决以下问题: HTML分析:需要某种HTML解析器来分析爬虫程序遇到的每一个页面。 页面处理:需要处理每一个下载得到的页面。下载得到的内容需要保存起来,以便进一步分析处理。


【文件预览】:
SpiderDemo
----bin()
--------Release()
--------Debug()
----Spider.cs(7KB)
----SpiderDemo.csproj(2KB)
----obj()
--------x86()
----UrlStack.cs(2KB)
----Properties()
--------AssemblyInfo.cs(1KB)

网友评论

  • 功能比较简单,很适合刚开始学的我们,很不错。
  • 比较简单,适合入门。
  • 功能不多,有参考价值
  • 初学者学习用
  • 非常适合刚刚学习互联网知识的新手,以及刚刚了解互联网需求的一些操作者。
  • 适合初学者
  • 功能简单,入门可以,拿来参考
  • 还不错,有帮助到我的毕业设计
  • 还不错,不过我是用C++的,算法都差不多了。
  • 功能一般,可以理解
  • 功能较单一
  • 非常简单,但是能用,适合初学者
  • 还是比较容易看懂,功能也很简单,适合菜鸟级的
  • 功能太单一了,只能爬出链接。
  • 好像可以,但是功能不完善!
  • 具有查考价值!!