分布式多主题网络爬虫系统的研究与实现.pdf

时间:2014-06-21 06:45:45
【文件属性】:

文件名称:分布式多主题网络爬虫系统的研究与实现.pdf

文件大小:507KB

文件格式:PDF

更新时间:2014-06-21 06:45:45

网络爬虫;多主题;分布式

提出一种基于数据抽取器的分布式爬虫结构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和莆复性检测。


网友评论