文件名称:VC++网络爬虫
文件大小:1.54MB
文件格式:RAR
更新时间:2016-08-15 14:50:38
VC++网络爬虫
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎作为一个检索信息的工具成为用户访问万维网的入口和指南。网络爬虫是一个自动提取网页的程序,它为搜索引擎从Internet上下载网页,是搜索引擎的重要组成。作为搜索引擎的资源采集部分,网络爬虫的性能将直接影响到整个搜索引擎索引网页的数量、质量和更新周期。 在上述背景下,本课题提出了基于VC++的网络爬虫的设计,实现原理为:应用socket编程技术和多线程技术在网络上抓取网页,使用正则表达式对抓取的网页内容进行分析,从中提取出用户所需的信息,使用宽度优先搜索算法访问页面中的所有链接,直至满足搜索的终止条件。涉及到Windows应用程序设计、正则表达式、HTTP协议、网络编程技术及多线程编程等技术,这些技术应用非常广泛,有大量的设计实例可供参考,此外,课题所使用的C++开发语言设计者已熟练掌握,因此,设计者可以完成本设计的任务。
【文件预览】:
Crawler
----NetCrawler.cpp(3KB)
----Resource.h(1KB)
----NetCrawler.dsw(545B)
----Release()
--------StdAfx.obj(786B)
--------DownloadData.obj(11KB)
--------NetCrawler.pch(5.43MB)
--------NetCrawler.exe(36KB)
--------NetCrawlerDlg.obj(25KB)
--------vc60.idb(57KB)
--------NetCrawler.res(4KB)
--------ProjectDlg.obj(12KB)
--------MainThread.obj(32KB)
--------NetCrawler.obj(12KB)
----res()
--------NetCrawler.ico(1KB)
--------NetCrawler.rc2(402B)
--------Thumbs.db(3KB)
----NetCrawler.rc(7KB)
----DownloadData.h(3KB)
----NetCrawlerDlg.h(3KB)
----NetCrawlerDlg.cpp(7KB)
----MainThread.cpp(14KB)
----ProjectDlg.cpp(4KB)
----DownloadData.cpp(4KB)
----NetCrawler.opt(51KB)
----StdAfx.cpp(212B)
----StdAfx.h(1KB)
----NetCrawler.ncb(89KB)
----NetCrawler.h(2KB)
----NetCrawler.plg(794B)
----ProjectDlg.h(2KB)
----NetCrawler.clw(3KB)
----MainThread.h(2KB)
----NetCrawler.dsp(5KB)
----ReadMe.txt(4KB)
----NetCrawler.aps(23KB)