文件名称:分布式多主题网络爬虫系统的研究与实现.pdf
文件大小:507KB
文件格式:PDF
更新时间:2014-06-21 06:45:45
网络爬虫;多主题;分布式
提出一种基于数据抽取器的分布式爬虫结构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和莆复性检测。
文件名称:分布式多主题网络爬虫系统的研究与实现.pdf
文件大小:507KB
文件格式:PDF
更新时间:2014-06-21 06:45:45
网络爬虫;多主题;分布式
提出一种基于数据抽取器的分布式爬虫结构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和莆复性检测。