java网络爬虫小程序

时间:2014-04-09 16:11:12
【文件属性】:

文件名称:java网络爬虫小程序

文件大小:286KB

文件格式:RAR

更新时间:2014-04-09 16:11:12

java网络爬虫

设计并实现crawler 程序 对 crawler 的功能要求如下,但不限于此: (1) 能够搜集本站内的所有网页,能提取出其中的URL 并加入到待搜集的URL 队列 中,对非本网站域名的URL,只允许搜集首页,记录发现的URL 即可;对搜集的结果,产 生2 个URL 列表:站内搜集URL、非站内(站外)发现URL; (2)使用User-agent 向服务器表明自己的身份; (3)能对HTML 网页进行解析,提取出链接URL,能判别提取的URL 是否已处理过, 不重复下载和解析已搜集过的网页; (4)能够对crawler 的一些基本参数进行设置,包括:搜集深度(depth)、文件类型、 文件大小等。 (5)对搜集的过程生成日志文本文件,格式为三元组: 时间戳(timestamp) Action URL Action 可表示当前的处理动作,例如processing(处理),parsing(解析),downloading (下载)等。对Action 的定义,请在实验报告中详细说明。 (6)遵循礼貌规则。必须分析robots.txt 文件和meta tag 有无限制;一个线程抓完一个 网页后要适当停顿(sleep);最多允许与被搜集站点同时建立2 个连接(本地做网页解析的 线程数则不限)。 (7)采用多线程并行编程技术,提高搜集速度。


【文件预览】:
crawler
----实验1()
--------Crawler实验报告.doc(347KB)
--------crawler()

网友评论

  • 挺好的,实用。
  • 还好,可以运行,就是过于简单了一些,有些要求都没有实现出来
  • 很好,可以使用
  • 还可以吧,可以运行,就是注释有点少
  • 还可以。。。作为初学者可以作为参考。。。
  • 程序比较简单,对初学者还是比较好接受的
  • 程序很简单,只实现了爬虫的基本原理
  • 程序较简单,木有提供者说的那么好
  • 太简单了 确实是能运行,有骗积分之嫌
  • 程序太简单,骗积分,没有爬取深度设计,也没有站内、站外网址的判断,下载后很后悔,积分被骗了。
  • 很好 终于找到了一个源码 可以改写了
  • 程序有些简单了,不过很实用,谢谢
  • 嗯,注释稍微缺少了点,看起来比较困难。
  • 很简单,对初学者还是很好的
  • 太简单了 确实是能运行
  • 可以运行但是很简单
  • 是,程序太简单,只是简单的实现了爬虫的思想,这个貌似帮助不大!
  • 太简单了,没有界面,而且也没有所谓的搜集精度的设计,也没有要求所谓的代码注释
  • 程序太过简单,有骗积分之嫌