网络爬虫的设计与实现

时间:2013-10-06 14:56:59
【文件属性】:

文件名称:网络爬虫的设计与实现

文件大小:167KB

文件格式:PDF

更新时间:2013-10-06 14:56:59

网络爬虫Webcrawler;广度优先爬取:多线程;DNS缓存;url判重

Web爬虫有两种爬取策略。基于Webcrawler(web爬虫)设计的BFS(广度优先)策略,文章使用MD5算法,来进行0(1)时间复杂度的链接判重。为了避免频繁的查询DNS服务器,建立DNS缓存。另外,也因一般行为模式的考量,在中加入了IP范围控制技术,网页过滤方法,和多线程并发技术。最后。给出了此爬虫所需的时间分析,以供评估并后续发展。


网友评论