文件名称:基于C#的网络爬虫程序
文件大小:2.24MB
文件格式:ZIP
更新时间:2014-05-10 17:28:50
网络爬虫
主要特性有: • 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 • 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 • 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 • 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 • 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。
【文件预览】:
发布一款基于C#的网络爬虫程序 - 刘杨 - 博客园.mht
BuildProcessTemplates
----DefaultTemplate.xaml(64KB)
----UpgradeTemplate.xaml(7KB)
test
----NWebCrawler.Test()
--------NWebCrawler.Test.sln(938B)
--------NWebCrawler.Test()
src
----NWebCrawler.sln(2KB)
----NWebCrawlerLib()
--------Utility.cs(4KB)
--------Settings.cs(4KB)
--------Properties()
--------Program.cs(1KB)
--------NWebCrawlerLib.csproj(6KB)
--------CrawlHistroyEntry.cs(322B)
--------Parser.cs(2KB)
--------UrlQueueManager.cs(3KB)
--------CrawlerThread.cs(11KB)
--------EventStream.cs(1KB)
--------Downloader.cs(7KB)
--------MemCache.cs(1KB)
--------Common()
--------ResourceCulture.cs(1KB)
--------PageRank.cs(1KB)
----NWebCrawler()
--------SettingsForm.Designer.cs(31KB)
--------config.ini(224B)
--------NWebCrawler.csproj(4KB)
--------SettingsForm.resx(147KB)
--------Properties()
--------Program.cs(506B)
--------MainForm.resx(69KB)
--------MainForm.cs(14KB)
--------app.config(77B)
--------SettingsForm.cs(7KB)
--------MainForm.Designer.cs(20KB)
setup
----wix3()
--------light.exe(36KB)
--------darice.cub(647KB)
--------wix.dll(1.34MB)
--------wconsole.dll(24KB)
--------candle.exe(24KB)
--------WixUIExtension.dll(1.29MB)
--------winterop.dll(93KB)
----build.cmd(112B)
----license.rtf(200B)
----Setup.wxs(1KB)
----Files.wxs(2KB)
data
----sina_12_28.txt(202KB)
----pdc_09.txt(117KB)
----spider.ico(1KB)
----crawlerdb.s3db(5KB)
lib
----x64()
--------System.Data.SQLite.dll(1.05MB)
--------System.Data.SQLite.lib(54KB)
----x86()
--------System.Data.SQLite.dll(884KB)
--------System.Data.SQLite.lib(56KB)