文件名称:网络蜘蛛(网络爬虫)webspider完整版
文件大小:96KB
文件格式:RAR
更新时间:2013-09-04 09:46:04
网络蜘蛛 网络爬虫 webspider
本程序实现了四部分功能: 1.运行程序,输入一个合法的URL,程序自动获取该URL对应网页的内容并把内容保存至本地。 2.运行程序,输入一个合法的URL,程序自动获取该URL对应网页的内容并搜索内容里的Email Addresses,把搜索到的Email Addresses保存至本地。 3.运行程序,输入一个合法的URL,程序自动获取多层URL的Email Addresses。即首先搜索输入URL对应网页的内容里的Email Addresses和URLs,同时再搜索获得的URLs里的Email Addresses和URLs,一直搜索至程序设置的层次。最后把搜索到的EmailAddresses保存至本地。 4.运行程序,程序从本地磁盘中读取一个包含valid Email Addresses、invalid Email Addresses and duplicate Email Addresses的文件,程序自动过滤duplicate Email Addresses and invalid Email Addresses,最后把结果重新保存至本地文件。
【文件预览】:
WebSpider
----ValidEmail.java(2KB)
----Assignment_2_Web_spider.doc(125KB)
----WebSrowler()
--------HTMLParse.java(181B)
--------ISpiderReportable.java(222B)
--------CheckLinks.java(5KB)
--------Spider.java(5KB)
----EmailSeeker.java(2KB)
----111.txt(80B)
----GetContents.java(2KB)
----readme.txt(953B)