垂直搜索引擎的抓取技术研究

时间:2013-02-19 11:27:04
【文件属性】:

文件名称:垂直搜索引擎的抓取技术研究

文件大小:3.92MB

文件格式:NH

更新时间:2013-02-19 11:27:04

直搜索引擎

本文首先介绍了垂直搜索抓取系统的体系结构,提出了一种分布式和基于可展插件的垂直搜索抓取系统框架,其分布式特性和插件模式都便于将来的扩。然后讨论了垂直搜索抓取系统中隐蔽网抓取的三个问题,并针对隐蔽网抓取 结果消重的问题提出了一种自学习的中文地址判重方法;接下来针对垂直搜索时效性问题提出了一种基于查询驱动的实时抓取方式;讨论了并比较了影响垂搜索抓取系统的抓取模式、抓取策略和抓取频率,在本文的系统中采用了稳定 续模式、及时替换式更新、实时抓取与固定频率相结合的方式。


网友评论

  • 对于垂直搜索引擎的一些算法及相关的概念的了解来说,这资料指的一看