文件名称:NetSpider vb
文件大小:424KB
文件格式:RAR
更新时间:2014-12-06 04:45:41
NetSpider 网页 爬虫 VB 源代码
开发初衷:为能演示更多的WEB组件,所以写该程序时更多在于考虑能使用到不同组件实现各个功能,所以对各组件的没能展现得较深入。另外由于是利用业余时间所以写得比较仓促,未能演示到利用SOCKET实现的HTTP协议,只利用HttpWebRequest和HttpWebResponse来代替了HTTP协议封装和解吸。 开发平台: VB.NET 2005 实现的功能: 1.显示选中区域代码:使用WebBrowser,为用户分析所选中的WEB对象相对应代码。协助定位代码分析。 2.显示当前对象信息:使用WebBrowser,分析当前的用户操作焦点所在的WEB对象信息。协助自动操作。 3.显示所有对象信息:使用WebBrowser,分析页面的所有WEB对象信息。 协助定位代码分析。 4.自动登陆:使用WebBrowser,结合..\LoginScript\Script.txt自定义脚本,对指定页面做相应的自动操作。协助自动操作网页。 5.执行脚本:使用WebBrowser,动态向页面嵌入自定义的WEB脚本,对指定页面做相应的自动操作。协助自动操作网页。 6.数据抓取:使用WebBrowser和API,对页面的资源文件做分析,下载到本地并本地化该HTML代码。再利用API重IE缓冲区拷贝对应资源文件到指定目录。 7.页面变化监控:使用HttpWebRequest和HttpWebResponse,对指定页面做周期性的变化监控,并在页面变化时通知用户更新数据。 8.网络蜘蛛:使用WebClient,从一个入口页面开始获取和保存其HTML代码,以广度优先的分析页面上的所有超联接并做爬行移动。 其他描述: 网页抓取数据后,数据将存到NetSpider\bin\SaveHtml\目录下,NetSpider\bin\SaveHtml\Src\存放相应的缓存数据。 自动登陆时,程序将在NetSpider\bin\LoginScript\Script.txt文件检索和监控视窗地址匹配的脚本操作并执行。这里附上http://my.51job.com/my/My_SignIn.php和http://www.baidu.com/两个地址用于演示。 在功能菜单启动网络蜘蛛后,数据分析线程将会启动,所解析到的数据将会写入到NetSpider\bin\Data\UrlDB.mdb的Microsoft Office Access数据库。
【文件预览】:
NetSpider
----NetSpider.sln(916B)
----NetSpider()
--------NetSpider.vbproj(7KB)
--------ClassDir()
--------FrmDir()
--------My Project()
--------ModueDir()
--------NetSpider.vbproj.user(168B)
--------obj()
--------bin()
----描述.txt(2KB)
----NetSpider.suo(44KB)