文件名称:C#编写的网络爬虫
文件大小:93KB
文件格式:7Z
更新时间:2016-01-24 10:01:02
C# .net 爬出 抓取 王页
高度灵活的配置:线程数,等待时间,连接超时,允许MIME类型和优先级,下载文件夹。 统计信息:URL数量,总下载文件,总下载字节数,CPU利用率和可用内存。 优先级设置:用户可以设置优先级MIME类型(高,上面的,正常的,下面,低)。 防陷阱:10 + URL规范化规则,履带式的陷阱避免规则。
【文件预览】:
NWebCrawler
----data()
--------pdc_09.txt(117KB)
--------sina_12_28.txt(202KB)
----src()
--------NWebCrawler.sln(1KB)
--------NWebCrawlerLib()
--------NWebCrawler()
----test()
--------NWebCrawler.Test()