VC++网络爬虫

时间:2016-08-15 14:50:38
【文件属性】:

文件名称:VC++网络爬虫

文件大小:1.54MB

文件格式:RAR

更新时间:2016-08-15 14:50:38

VC++网络爬虫

随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎作为一个检索信息的工具成为用户访问万维网的入口和指南。网络爬虫是一个自动提取网页的程序,它为搜索引擎从Internet上下载网页,是搜索引擎的重要组成。作为搜索引擎的资源采集部分,网络爬虫的性能将直接影响到整个搜索引擎索引网页的数量、质量和更新周期。 在上述背景下,本课题提出了基于VC++的网络爬虫的设计,实现原理为:应用socket编程技术和多线程技术在网络上抓取网页,使用正则表达式对抓取的网页内容进行分析,从中提取出用户所需的信息,使用宽度优先搜索算法访问页面中的所有链接,直至满足搜索的终止条件。涉及到Windows应用程序设计、正则表达式、HTTP协议、网络编程技术及多线程编程等技术,这些技术应用非常广泛,有大量的设计实例可供参考,此外,课题所使用的C++开发语言设计者已熟练掌握,因此,设计者可以完成本设计的任务。


【文件预览】:
Crawler
----NetCrawler.cpp(3KB)
----Resource.h(1KB)
----NetCrawler.dsw(545B)
----Release()
--------StdAfx.obj(786B)
--------DownloadData.obj(11KB)
--------NetCrawler.pch(5.43MB)
--------NetCrawler.exe(36KB)
--------NetCrawlerDlg.obj(25KB)
--------vc60.idb(57KB)
--------NetCrawler.res(4KB)
--------ProjectDlg.obj(12KB)
--------MainThread.obj(32KB)
--------NetCrawler.obj(12KB)
----res()
--------NetCrawler.ico(1KB)
--------NetCrawler.rc2(402B)
--------Thumbs.db(3KB)
----NetCrawler.rc(7KB)
----DownloadData.h(3KB)
----NetCrawlerDlg.h(3KB)
----NetCrawlerDlg.cpp(7KB)
----MainThread.cpp(14KB)
----ProjectDlg.cpp(4KB)
----DownloadData.cpp(4KB)
----NetCrawler.opt(51KB)
----StdAfx.cpp(212B)
----StdAfx.h(1KB)
----NetCrawler.ncb(89KB)
----NetCrawler.h(2KB)
----NetCrawler.plg(794B)
----ProjectDlg.h(2KB)
----NetCrawler.clw(3KB)
----MainThread.h(2KB)
----NetCrawler.dsp(5KB)
----ReadMe.txt(4KB)
----NetCrawler.aps(23KB)

网友评论

  • 感谢分享,正在学习
  • 编译通过,就是感觉代码不值这个价呀,略心疼。
  • 已通过修改代码,定制,下载多个html。
  • 还不错,适合入门 编译通过了,不过稍微有点瑕疵,需要完善
  • 编译能通过,还在研究中
  • 编译通过,可以用,但试着使用后感觉功能还有所欠缺,URL的过滤内容不怎么准确。
  • 还不错,就是分数贵了点,下的时候有点心疼。代码注释很清晰,感谢分享
  • 不错,还行吧,适合新手