网络爬虫的设计和实现下载

【文件属性】：

文件名称：网络爬虫的设计和实现

文件大小：31KB

文件格式：ZIP

更新时间：2015-12-08 15:32:02

C# VS2010 网络爬虫 Spider 网络蜘蛛

首先，简单介绍下网络爬虫　　网络爬虫是通过网页的链接地址来寻找网页，从网站某一个页面（设置为主页）开始，读取网页的内容，找到网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到这个网站所有的网页都抓取完为止。实际上，由于抓取技术的限制以及存储技术、处理技术的限制，要完全抓取网站的所有网页是不可能的，也是不实际的！本着从用户需要为出发点，实际需要抓取的网页往往是有限的，只需抓取符合用户要求的网页即可！抓取网页的策略在抓取网页的时候，网络爬虫一般有两种策略（即两种搜索方法），广度优先和深度优先。广度优先：是指网络爬虫会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此页面中链接的所有页面。这是最常用的方式，广度优先的搜索策略可以并行处理，提高抓取速度。深度优先：是指网络爬虫会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。这种策略较易实现，但是抓取速度慢。由于一般不可能抓取网站的所有链接，一般会设置访问层数，即搜索深度。起始页的深度为0，起始页中的链接url深度为1，依此类推。构造C#语言的爬虫程序 C#已经封装了HTTP访问和多线程，这对编写网络爬虫提供了方便，而要C#网络爬虫程序需要解决以下问题： HTML分析：需要某种HTML解析器来分析爬虫程序遇到的每一个页面。页面处理：需要处理每一个下载得到的页面。下载得到的内容需要保存起来，以便进一步分析处理。

立即下载

【文件预览】：
SpiderDemo
----bin()
--------Release()
--------Debug()
----Spider.cs(7KB)
----SpiderDemo.csproj(2KB)
----obj()
--------x86()
----UrlStack.cs(2KB)
----Properties()
--------AssemblyInfo.cs(1KB)

秒客网

网络爬虫的设计和实现

网友评论

相关文章