网络爬虫的设计与实现下载

【文件属性】：

文件名称：网络爬虫的设计与实现

文件大小：167KB

文件格式：PDF

更新时间：2013-10-06 14:56:59

网络爬虫Webcrawler；广度优先爬取：多线程；DNS缓存；url判重

Web爬虫有两种爬取策略。基于Webcrawler(web爬虫)设计的BFS(广度优先)策略，文章使用MD5算法，来进行0(1)时间复杂度的链接判重。为了避免频繁的查询DNS服务器，建立DNS缓存。另外，也因一般行为模式的考量，在中加入了IP范围控制技术，网页过滤方法，和多线程并发技术。最后。给出了此爬虫所需的时间分析，以供评估并后续发展。

立即下载

秒客网

网络爬虫的设计与实现

网友评论

相关文章