文件名称:垂直搜索引擎的抓取技术研究
文件大小:3.92MB
文件格式:NH
更新时间:2013-02-19 11:27:04
直搜索引擎
本文首先介绍了垂直搜索抓取系统的体系结构,提出了一种分布式和基于可展插件的垂直搜索抓取系统框架,其分布式特性和插件模式都便于将来的扩。然后讨论了垂直搜索抓取系统中隐蔽网抓取的三个问题,并针对隐蔽网抓取 结果消重的问题提出了一种自学习的中文地址判重方法;接下来针对垂直搜索时效性问题提出了一种基于查询驱动的实时抓取方式;讨论了并比较了影响垂搜索抓取系统的抓取模式、抓取策略和抓取频率,在本文的系统中采用了稳定 续模式、及时替换式更新、实时抓取与固定频率相结合的方式。